当前位置: 网站首页 >AI教程资讯 >正文

OpenAI重夺竞技场第一,但这波靠的是4o

来源:爱论文 时间:2025-06-12 13:27:50

OpenAI开发者日新加坡站今天启幕,果不其然,ChatGPT又出手了:

Gemini刚在竞技场头把交椅上坐了不到一周,最新版ChatGPT轻轻一更新,第一再次易主。

对,还不是o1满血版,而是新版4o。

具体来说,此番GPT-4o更新的是“创意写作能力”,官方说法是:

模型能完成更自然、更有吸引力、更具针对性的写作,文本相关性和可读性更强。

还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。

o1核心贡献者Karina Nguyen对此做了进一步解释:

作为Canvas功能的一部分,我们希望改进写作,因为这是一个顶级用例,并且可能会改变人机协作的方式,来更具创造性地完成写作任务。

我认为我们还没有完全解决这个研究问题,因为它非常主观且开放,但至少在写作方面取得进展,是AGI创造性智能的关键。

而在大模型竞技场的创意写作分榜上,可以看到新版4o(ChatGPT-4o-1120)确实有明显的提升,分数从上个版本的1365提升到了1402。

至于实际效果,我们简单测试了一下,看看你能给打个几分:

重返第一,但4o

除了在总榜上为OpenAI重夺第一,新版4o在体现具体能力的各个分榜上亦有提升。

在创意写作方面,从第2位升至第1位;

在代码能力方面,从第2位升至第1位;

在数学能力方面,从第4位升至第3位(第1还是o1-preview);

在困难任务方面,从第2位升至第1位。

并且在风格控制(Style Control)之后,新版4o依然位居首位。

风格控制旨在让榜单分数更真实地反映模型解决问题的能力,避免模型靠漂亮的格式、增加回答长度刷分。

总胜率热图显示,新版4o对上此前登顶的Gemini-Exp-1114,胜率为59%;对上Claude 3.5 Sonnet,胜率为69%;对上5月版本的4o,更是在72%的情况下都能取胜。

嗯,看上去很强很不错,但还是那句话……是4o。

结合今日份DeepSeek的大新闻——DeepSeek版o1满血上线,还计划开源,不少网友直接在奥特曼“新的好模型来了”的推文下贴脸嘲讽起来:

可不是嘛,deepseek挺好。

快把o1放出来,跟deepseek-r1正面比较一下:)

简而言之就是:o1满血版今年上线传得满城风雨,现在2024年都只剩下40几天了,OpenAI你暗搓搓更新个4o是闹哪样!

还有人试图总结OpenAI的更新模式:

OpenAI的老伙计们怕不是写了个脚本,用来查询大模型竞技场排名第一的模型。

当返回值不是OpenAI的模型时,他们就部署个新版本来拿回第一。

嗯,才不管你期待的是什么呢╭(╯^╰)╮

另外,还有网友拿新4o的生成结果去做了测试,结果系统还是当场判断出了100%AI写的:

△图源:

上一篇:谈谈“机器人创业”圈子里的鄙视链
相关资讯 更多+
  • OpenAI重夺竞技场第一,但这波靠的是4o
    OpenAI重夺竞技场第一,但这波靠的是4o

    OpenAI开发者日新加坡站今天启幕,果不其然,ChatGPT又出手了:Gemini刚在竞技场头把交椅上坐了不到一周,最新版ChatGPT轻轻一更新,第一再次易主。对,还不是o1满血版,而是新版4o。具体来说,此番GPT-4o

    AI教程资讯 2023-04-14

  • 谈谈“机器人创业”圈子里的鄙视链
    谈谈“机器人创业”圈子里的鄙视链

    2024年,虽然大模型掀起的“具身智能”创业潮还没多久,但在「智能涌现」访谈过数十家机器人公司后,我们发现一条圈子里的“鄙视链”。“搞软件的,鄙视搞硬件的,搞大模型的,看不起强化学习的”,多位行业人士给出

    AI教程资讯 2023-04-14

  • AI编程在硅谷杀疯了,但国内还长得出自己的Cursor么
    AI编程在硅谷杀疯了,但国内还长得出自己的Cursor么

    2024年夏天,经历了3次重大功能更新和40余次功能迭代之后,AI代码编辑器Cursor在北美制造了一场程序员狂潮,并且也随即成为大洋彼岸中国程序员们的编程工具首选。面对强大的GitHubCopilot,Cursor带来的交互方

    AI教程资讯 2023-04-14

  • “这个杀手不太冷”,AI有可能获诺贝尔文学奖吗?
    “这个杀手不太冷”,AI有可能获诺贝尔文学奖吗?

    今年的诺贝尔奖最让人意外的莫过于物理学奖颁给了AI界的大咖杰弗里·E 辛顿。而后化学奖也如法炮制,颁给了两位在利用人工智能推动蛋白质折叠研究方面做出突出贡献的科学家。可以合理预测,未来会有越来越多的奖

    AI教程资讯 2023-04-14

最新录入 更多+
确定