OpenAI发布新功能，允许企业基于自家数据定制最强AI模型-爱论文

腾讯科技讯 8月21日消息，美国当地时间周二，OpenAI发布了一项新功能，将允许企业客户使用自己的公司数据来定制这家人工智能 (AI) 初创公司最强大的模型GPT-4o。

OpenAI 计划于周二推出定制功能，在人工智能行业中通常称为微调。微调允许现有的人工智能模型接受有关特定任务或主题领域的额外信息的训练。

例如，一家生产滑板的公司可能会对人工智能模型进行微调，以便将其用作客户服务聊天机器人，能够解答有关轮子和滑板保养细节的问题。

在当前初创企业于人工智能产品领域竞争激烈，企业亟需展现人工智能投资回报的背景下，微调作为OpenAI旗舰模型的最新功能尤显重要。

值得注意的是，此功能在GPT-4o及其前身中尚属首次引入，而OpenAI此前向用户开放对包括GPT-4o mini在内的多类模型的微调权限，为用户提供了更经济高效的选项。

面对市场上众多科技公司的模型定制服务，OpenAI API产品主管奥利维尔·戈德蒙（Olivier Godement）强调，OpenAI致力于通过与企业建立直接合作关系，简化并加速客户对其顶级模型的调整过程，避免用户转向外部服务或性能较弱的替代品。

他还指出：“我们始终致力于降低技术门槛，减少操作障碍，从而减轻用户启动和调整模型的工作负担。”

客户在进行模型微调时，需将数据传输至OpenAI服务器。据OpenAI定制工作软件工程师约翰·阿拉德（John Allard）介绍，此过程平均耗时约一两个小时。初期，微调仅限于文本数据，暂不支持图像或其他媒体格式。

在OpenAI发放免费Token之际，其正面临来自谷歌、Anthropic等专有模型供应商及Nous Research Hermes 3、Meta Llama 3.1等开源模型的激烈价格战。

不过，采用OpenAI及类似闭源/专有模型的优势在于，开发者无需自行承担模型推理或训练的服务器托管任务，既可利用OpenAI服务器资源，也可通过API将其首选服务器无缝对接。

然而，研究表明，微调模型可能带来风险，包括偏离原有安全护栏与性能保障，进而影响其整体效能。企业是否愿意承担此风险，需自行权衡。但OpenAI显然认为其物有所值，并鼓励用户将微调视为优化选择。

另外，OpenAI 周二表示，该公司将在其产品中展示来自《Vogue》、《纽约客》和《连线》等品牌的内容。该协议还允许 OpenAI 使用康泰纳仕的内容来帮助训练其人工智能模型，而这需要大量数据才能学习。

此次声明标志着OpenAI 加大与媒体媒体公司达成交易力度，而不是与媒体公司就如何在其 AI 工具中使用新闻文章和其他内容展开争斗。双方并未披露协议的交易金额。

以下是OpenAI发布的官方消息全文：

今天，我们推出了GPT-4o的微调功能，这是开发者最需要的功能之一。截至9月23日，我们还将为每家企业每天免费提供100万个训练Token。

开发者现在可以使用其独有的数据集对GPT-4o进行微调，从而针对特定用例以更低的成本获得更高的性能。微调技术赋予模型灵活调整回复结构与语气的能力，甚至能遵循复杂且高度专业化的领域指令，仅需少量训练样本（如数十个示例），即可为应用程序带来显著成效。

从编码到创意写作，微调功能广泛覆盖多个领域，深刻影响并提升模型的整体性能。这还只是一个开始，我们将继续为开发者投资扩展我们的模型定制选项。

自即日起，GPT-4o微调功能全面向所有付费开发者开放。请直接访问微调仪表板，点击“create”按钮，随后从基础模型下拉列表中选取“GPT-4o -2024-08-06”以启动微调流程。关于费用，GPT-4o微调训练成本设定为每百万Token 25美元，而推理成本为每百万输入Token 3.75美元，每百万输出Token 15美元。

此外，GPT-4o mini微调功能同样面向所有付费开发者开放。您只需在微调仪表板中选择“GPT-4o-mini-2024-07-18”作为基础模型即可。特别优惠：为庆祝上线，我们为GPT-4o mini用户每日免费提供高达200万个训练Token，此优惠有效期至9月23日。

微调成功例证

在过去的几个月里，我们与许多值得信赖的伙伴合作，对GPT-4o进行了微调测试，并了解了他们的用例。以下是几个成功的例子:

1.Cosine在SWE-bench基准测试中表现惊人

初创公司Cosine的Genie是一款人工智能软件工程助手，能够自主辨识并修复漏洞，构建功能，并高效协同用户进行代码重构。它还可以对复杂的技术问题进行推理，并以更高的准确性和更少的Token需求对代码进行更改。

Genie由经过微调的GPT-4o模型支持，该模型融入了真人软件工程师的实战经验，使模型能够学习以特定的方式做出响应。此外，该模型还掌握了将输出格式化为易于集成至代码库的补丁等特定格式，进一步提升了工作效率。

上周二公布的SWE-bench验证基准测试结果显示，Genie以43.8%的SOTA分数傲视群雄，特别是在Full测试中，其SOTA得分高达30.08%，较之前的最佳成绩19.27%实现了显著飞跃，标志着该基准测试历史上的重大突破。SWE-Bench是一个评估人工智能软件工程能力的测试。

2.Distyl在BIRD-SQL基准测试中排名第一

Distyl是财富500强公司的人工智能解决方案合作伙伴，最近在BIRD-SQL基准测试中排名第一，这是领先的文本到SQL基准测试。Distyl经过微调的GPT-4o在排行榜上的执行准确率达到了71.83%，在查询重新表述、意图分类、思维链和自我纠正等任务上表现出色，在SQL生成方面表现尤为突出。

数据私隐及安全

微调模型完全置于用户掌控之中，用户拥有对业务数据的绝对所有权，涵盖所有输入与输出。这确保了用户的数据永远不会被共享或用于训练其他模型。

此外，我们为微调模型部署了多层次的安全防护机制，严防滥用行为。例如，我们不断地在微调模型上运行自动安全评估，并监控使用情况，以确保应用程序遵守我们的使用政策。

我们热切期待见证您通过微调GPT-4o所创造的成果。若您渴望探索更多模型定制的可能性，请随时联系我们的团队，我们定将竭诚为您提供支持与协助！