9月12日,OpenAI造势已久的“草莓”模型——OpenAI o1正式上线。Sam Altman称该模型开启了AI新范式:实现AI的通用复杂推理。对比GPT系列,之前大模型更多是System1的思考,而o1聚焦于让AI进行System2思考。它通过强化学习(Reinforcement Learning)为主的训练,让模型在回答问题前主动“思考”自动生成“思维链”,以使模型能够像人类一样进行复杂推理来解答问题。在数学和编程方面,o1能力大大超过GPT-4o;在涉及化学、物理和生物等的专业测评中,它的表现超过了人类博士水平。
01 OpenAI o1发布概览
模型上线
9月12日,OpenAI正式发布了其造势已久的“草莓”模型-OpenAI o1。命名之所以没有沿用GPT,是因为它的训练重点有明显变化。与以往GPT系列相比,o1会花更多时间思考再做出反应。o1主要采用强化学习的训练方式,模型被训练像人类一样会完善自己的思维过程,尝试不同的策略,并认识并改正自己的错误。在科学、编程和数学领域,它能够解决难度更大的问题。
OpenAI o1-preview:o1模型的早期预览版,用于利用广泛的通用知识来推理复杂的问题。每周可使用30次;定价为每百万输入token 15美元,每百万输出token 60美元,分别是GPT-4o价格的3倍和4倍。 OpenAI o1-mini:速度更快且成本更低,擅长不需要通用知识的编码任务。每周可以使用50次,价格比比 o1-preview 便宜80%。
为突出o1推理能力的提升,OpenAI在一系列推理密集的人工考试及ML基准上进行了测试。结果显示,OpenAI o1-preview 解决高难度数学题和处理编程任务方面大幅超过GPT-4o。比如在竞赛数学数据集AIME 2024 上,o1-preview 得分是GPT-4o的4倍多;在编程竞赛数据集Codeforces上,差距变成5.6倍。此外,在涉及化学、物理学和生物学专业知识的GPQA-diamond评测中,o1的表现更是超过了拥有博士学位的人类专家。但OpenAI也强调,“这些结果并不意味着它在所有方面都比拥有博士学位的专家更强,只能说o1更擅长解决一些博士能够解决的特定问题。”
用户实际评测
虽然OpenAI原厂测评显示o1提升显著,但从模型发布后大量用户的实际体验来看,许多用户反馈o1模型的能力与宣传相比还存在较大差距,在此总结一些用户的真实反馈:
o1在在行为和语言风格上与GPT-4o高度相似,用户在实际体验中感受不到与GPT-4o的明显差距,甚至有用户猜测新模型是否只是GPT-4o的微调版本。
上下文长度不符合官宣的64k,实际输出长度远少于此。比如,当用户要求o1写"不少于2万字的黑神话悟空同人小说"时,模型只返回了1000多字。这背后的原因可能是新的推理范式(Self-play Reinforcement Learning)导致模型消耗了大量token用于过程的思维链。
API调用成本大幅上涨:在一些用户实测案例中,o1完成相同任务的成本比GPT-4o高出40-258倍不等。
API功能有所阉割:不支持system、tool等字段以及json mode等方法。
强化学习和思维链
关于如何训练o1达到目前的推理能力,OpenAI在其技术文档Learning to Reason with LLMs(https://openai.com/index/learning-to-reason-with-llms/)中有所提及:“o1在尝试解决问题时会使用思维链(Chain of Thoughts)。通过强化学习,o1学会如何磨练自己的思维链,并完善它所使用的策略。它学会了识别和纠正自己的错误;将复杂步骤分解为更简单的步骤;在当前方法不起作用时尝试不同的方法。这极大地提高了模型的推理能力。”
在研究o1的过程中,我们还意外地发现,字节ByteDance Research实验室在今年1月就发表了一篇将SFT与RL结合从而提升模型推理能力的论文《REFT: Reasoning with Reinforced Fine-Tuning》(https://arxiv.org/pdf/2401.08967v1)。这篇论文有助于我们推测o1的具体做法:我们猜测,o1最核心的算法可能是在fine-tuning的loss function中加入了RL的reward项,根据有正确答案的问题生成CoT,根据答案是否正确分配reward给fine-tuning过程引入反馈,这样模型就可以学到正确的CoT能力,反复迭代训练,生成越来越多正确的CoT。这个过程类似于AlphaZero在围棋领域的自对弈(self-play)学习,但o1将这一概念扩展到了更广泛的领域。
有明确的答案。 领域知识是公开的。因此绝大部分相关知识已经被LLM学习过,底层大模型有相关知识储备。
在现实世界中,大多数问题并没有唯一正确答案,有的反馈链路也非常长。比如,产品的用户体验哪种方式最好,并不是确定或唯一的;研制出来的新药,试用在病人身上需要一定时间后才能知道结果;企业内部的信息,基本是不公开的。真正 System2的决策问题,往往需要更复杂的数据和知识,不像数理化⽣问题的所有背景知识都已经在公开语料中学过了。开放问题不仅没有标准答案,⽽且需要的知识和数据大多是企业私有的,问题也都跟业务逻辑相关。面对这些,RL的训练方法是否依旧好用?通过RL所训练的推理能力,是否能够泛化到这些领域、解决现实世界的问题?目前这仍然是个未知数。我们猜测,这也是OpenAI在赌的方向——能否通过收集足够多的问题和答案作为反馈,构建一个真正泛化的推理模型。
2)如何判断是否启动System2思考
有了System2的思考能力,大模型在回答用户提问时会遇到一个很具挑战性的问题:如何判断一个问题是否需要启动System2的推理能力?如果不做判断,事事都做System2思考,会造成大量的计算资源浪费,同时大幅提高了用户的使用成本。但如果判断不准确,让本来应该用复杂推理推导的问题只做System1思考,则会降低回复质量。决定是否启动System2思考,成为了大模型平衡成本与性能的关键。 但对于开放问题,决定Sytem1还是System2,不仅需要尝试,还需要大量的外部反馈。虽然OpenAI存在一个独特的技术优势——只有它可以通过模型推理过程的置信度来判断一个问题System1的回答是否足够好,但这种评估的准确性也存在着较大的不确定性。
o1的出现,似乎预示着大模型技术从预训练阶段的规模屏障有望走向类似软件工程的增量机制。如果增量发展模式成为可能,我们可能很快就会看到AI推理能力的普及和快速提升,这将极大地降低入局门槛,为创新创业带来前所未有的机遇,推动我们在AGI路上前进一大步。
垂直模型的可能
o1的发布证明了,给定优质推理数据集,通过RL可以确定性提高模型的推理能力。但如前面提到,对于OpenAI等基础模型厂商而言,选择这条路最大的风险在于:推理能力是否可以泛化?对于聚焦垂直领域的大模型应用开发者,则不存在这个令人头疼的问题——他们所面对的本来就是封闭领域。RL路线下,垂直领域的应用开发者,反而可以借鉴Reinforcement Learning Fine tuning的方式,结合领域数据和领域经验(特定领域的业务逻辑、工作流程、专家经验等),去训练一个垂直领域的小模型,提升AI在特定领域的推理能力,从而加速AI在各个应用场景落地的进程。
对应用开发者而言,这样做的好处不言而喻:提升了AI性能的同时,也加深了业务的护城河。但这一做法也存在一个潜在风险:如果底层大模型推理能力泛化被证实是可行的,或者预训练Scaling Law之下模型能力出现了再一次的飞跃,做垂直模型的公司可能会面临技术适应性差、被大模型淹没的风险。
开源差距进一步缩小
System Prompt不开放,开发者无法定制System Prompt o1的CoT推理过程不透明,这导致开发者难以优化prompt和控制推理过程。 限制检索增强生成 (RAG) 中的附加上下文。OpenAI提示用户在提供附加上下文或文档时,仅包含最相关的信息,以防止模型过度复杂化其响应。这导致应用开发者无法把领域/业务相关数据上传给模型,也就导致无法让模型针对性地处理特别具体的复杂问题。 CoT推理中所耗费的Token是个黑盒。这些Token在API响应中不可见,但仍被记账并算作输出Token,这导致了推理Token的成本难以控制和优化。这是企业客户不能接受的,如果一个东西的成本不可预测、不可控,让企业买单几乎是不可能的。这也让使用o1的应用开发者,很难做针对企业客户的应用。
05 对OpenAI产品战略的推测
用户提出的问题。 通过用户的后续行为来判定模型给出的答案是否正确。
用户的使用和反馈可以帮助OpenAI建立庞大的真实CoT数据库(一个完整的数据对:问题-->CoT推理过程-->推理结果是否满意)。随着其真实CoT数据库不断丰富,模型就可以逐步从从封闭的、特定领域的问题求解,向更加开放的、复杂的推理任务迈进。
为什么o1 API要隐藏CoT过程?
我们也可以推测出,为什么o1 API中隐藏CoT推理过程,不允许用户看到中间过程的prompt。除了官方所说的安全和合规考虑之外,可能有一个最重要的原因:这些数据本身就是最宝贵的训练资源。一旦能大量获得o1的CoT推理过程作为起点,竞争者可能只要花非常有限的算力,很快就复制出类似的能力。
综上,我们认为,现阶段o1可能只是一个工具性的模型,OpenAI收够了数据,可能就会发布新的模型——要么会发布o2继续在RL路线上的探索;如果推理能力的泛化不及预期,则会回归GPT-5主线。估计未来3-6个月,OpenAI就会走出下一步。OpenAI在面对巨大的营收压力、复杂的融资环境和内部动荡之时,仍然能在o1的产品战略上如此聚焦——仅仅围绕着收集优质CoT数据展开,展现了在管理团队面对风险时的成熟度和战略定力,对于一家创业公司,这是非常难得的。
虽然RL提升推理能力已经有多家头部公司在探索,我们认为,o1的发布会加速这一共识的形成,将RL从头部大模型公司的尝试迅速扩展至全行业,包括应用层。
新范式带来了根本的技术架构改变,接下来的核心问题是:企业数据和业务决策的推理能力是否可以泛化?未来这部分推理能力会放在应用层还是大模型中?行业的终局是一个强大的预训练大模型还是众多垂直的领域大模型?这些选择将决定 AI 产业的结构和技术发展的走向,也是我们接下来对该领域的核心观察锚点。
本文链接:https://dinjianwenan.top/chatgpt_232.html
openai o1模型简介OpenAI o1中文版OpenAI o1地址OpenAI o1官网OpenAI o1官网入口OpenAI o1 previewOpenAI o1 miniOpenAI o1-previewOpenAI o1-minio1-mini