我们开发了一系列新的人工智能模型,旨在让它们在做出反应之前花更多的时间思考。 它们可以通过复杂的任务进行推理,解决比以前的科学、编码和数学模型更难的问题。
数学:在高中 AIME 数学竞赛中,o1-mini(70.0%)与 o1(74.4%)相当,同时价格便宜得多,且成绩优于 o1-preview(44.6%)。o1-mini 的得分(约 11/15 个问题)大约位列美国高中生前 500 名。
编码:在 Codeforces 竞赛网站上,o1-mini 的 Elo 得分为 1650,与 o1(1673)不相上下,且高于 o1-preview(1258)。这一 Elo 得分使该模型在 Codeforces 平台上竞争的程序员中处于第 86 个百分位左右。o1-mini 在 HumanEval 编码基准和高中级网络安全夺旗挑战赛 (CTF) 中也表现出色。
从图中不难看出,代码和安全都有很大的提升。
在推出这些AI模型之前,我们进行了大量的安全性研究。这份报告详细介绍了我们在发布OpenAI o1-preview和o1-mini之前所采取的安全措施,涵盖了外部红队测试(模拟攻击以评估系统安全性)以及前沿风险评估。这些工作确保了模型的安全性和稳定性,符合我们严格的“准备框架”。
本文链接:https://dinjianwenan.top/chatgpt_230.html
OpenAI-o1ChatGPTPlusOpenAI o1chatgpt 中文OpenAIo1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1-miniOpenAI o1-preview