技术报告:https://openai.com/index/learning-to-reason-with-llms/
OpenAI o1介绍:https://openai.com/index/introducing-openai-o1-preview/
我们正在引入OpenAI o1,这是一种新的大型语言模型,经过强化学习训练,可以执行复杂的推理。o1在回答之前思考–它可以在对用户做出响应之前产生一个很长的内部思考链。
OpenAI发布新模型o1系列,可以实现复杂推理,旨在花更多时间思考,然后再做出响应。这些模型可以推理复杂的任务并解决比以前的科学、编码和数学模型更难的问题。 并且效果得到了极大的提升,大概从高中生提升到了博士生。
具体来说,o1系列是OpenAI首个经过强化学习训练的模型,在输出回答之前,会在产生一个很长的思维链,以此增强模型的能力。换句话说,内部思维链越长,o1思考得越久,模型在推理任务上的表现就越好。
o1有多强?
CEO奥特曼给出答案:
在刚刚结束的2024 IOI信息学奥赛题目中,o1的微调版本在每题尝试50次条件下取得了213分,属于人类选手中前49%的成绩。
如果允许它每道题尝试10000次,就能获得362.14分,高于金牌选手门槛,可获得金牌。
另外它还在竞争性编程问题 (Codeforces) 中排名前89%,在美国数学奥林匹克 (AIME) 预选赛题目中跻身美国前500名学生之列。
与GPT-4o相比,o1在数理化生、英语法律经济等各种科目都有不同成绩改进。
发布的模型包括哪些?
o1:暂未对外开放使用。
o1-preiview:o1的先行版本,可以立即提供给ChatGPT付费用户和Tier 5级API用户。
o1-mini:速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务。
OpenAI o1原理
OpenAI o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是,o1 在回答之前会思考——它可以在响应用户之前产生一个很长的内部思维链。
也就是该模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
对于复杂的推理任务来说,这是一个重大进步,OpenAI称代表了人工智能的最高水平。
鉴于此,他们决定将计数器重置,并将该系列模型命名为OpenAI o1。
重点在于,OpenAI的大规模强化学习算法,教会模型如何在数据高度有效的训练过程中利用其思想链进行高效思考。换言之,类似于强化学习的 Scaling Law。
OpenAI发现,随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1的性能持续提高。而且扩展这种方法的限制与大模型预训练的限制有很大不同,OpenAI也还在继续研究。
模型评估
为了突出相对于 GPT-4o 的推理性能改进,OpenAI 在一系列不同的人类考试和机器学习基准测试中测试了 o1 模型。实验结果表明,在绝大多数推理任务中,o1 的表现明显优于 GPT-4o。
在许多推理密集型基准测试中,o1的表现可与人类专家相媲美。最近的前沿模型在 MATH 和GSM8K 上表现得非常好,以至于这些基准测试在区分模型方面不再有效。因此,OpenAI 在 AIME 上评估了数学成绩,这是一项旨在测试美国最聪明高中数学学生的考试。
OpenAI 还在 GPQA Diamond 基准上评估了 o1,这是一个困难的智力基准,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,OpenAI 聘请了拥有博士学位的专家来回答 GPQA Diamond 基准问题。
实验结果表明:o1 超越了人类专家的表现,成为第一个在该基准测试中做到这一点的模型。
启用视觉感知能力后,o1 在 MMMU 基准上得分为 78.2%,成为第一个与人类专家相当的模型。o1 还在 57 个 MMLU 子类别中的 54 个上优于 GPT-4o。
思维链(Chain of Thought)
与人类在回答难题之前会长时间思考类似,o1 在尝试解决问题时会使用思维链。通过强化学习,o1 学会磨练其思维链并改进其使用的策略。o1 学会了识别和纠正错误,并可以将棘手的步骤分解为更简单的步骤。o1 还学会了在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。
编程能力(Coding)
基于 o1 进行了初始化并进一步训练了其编程技能后,OpenAI 训练得到了一个非常强大的编程模型(o1-ioi)。该模型在 2024 年国际信息学奥林匹克竞赛(IOI)赛题上得到了 213 分,达到了排名前 49% 的水平。并且该模型参与竞赛的条件与 2024 IOI 的人类参赛者一样:需要在 10 个小时内解答 6 个高难度算法问题,并且每个问题仅能提交 50 次答案。
OpenAI发现,如果放宽提交限制条件,则模型性能更是能大幅提升。如果每个问题允许提交 1 万次答案,即使不使用上述测试时选取策略,该模型也能得到 362.14 分——高于金牌门槛。
最后,OpenAI 模拟Codeforces 主办的竞争性编程竞赛,以展示该模型的编码技能。采用的评估与竞赛规则非常接近,允许提交 10 份代码。GPT-4o 的 Elo评分为 808,在人类竞争对手中处于前 11% 的水平。该模型远远超过了 GPT-4o 和 o1——它的 Elo 评分为 1807,表现优于 93% 的竞争对手。
人类偏好评估(Human preference evaluation)
除了考试和学术基准之外,OpenAI 还在更多领域的具有挑战性的开放式提示上评估了人类对 o1-preview 和 GPT-4o 的偏好。
在这次评估中,人类训练者对 o1-preview 和 GPT-4o 的提示进行匿名回答,并投票选出他们更喜欢的回答。在数据分析、编程和数学等推理能力较强的类别中,o1-preview 的受欢迎程度远远高于 GPT-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。
安全性(Safety)
思维链(CoT)推理为安全和对齐提供了新的思路。OpenAI 发现,将模型行为策略整合到推理模型的思维链中,可以高效、稳健地教导人类价值观和原则。通过向模型教导自己的安全规则以及如何在上下文中推理它们,OpenAI 发现推理能力直接有利于模型稳健性的证据:o1-preview 在关键越狱评估和用于评估模型安全拒绝边界的最严格内部基准上取得了显著的改进。
OpenAI认为,使用思维链可以为安全和对齐带来重大进步,因为
1)它能够以清晰的方式观察模型思维;
2)关于安全规则的模型推理对于分布外场景更具稳健性。
为了对自己的改进进行压力测试, OpenAI 在部署之前根据自己的安全准备框架进行了一系列安全测试和红队测试。结果发现,思维链推理有助于在整个评估过程中提高能力。尤其值得注意的是,OpenAI 观察到了有趣的奖励黑客攻击实例。
隐式思维链(Hiding the Chains of Thought)
OpenAI认为隐式思维链为监控模型提供了独特的机会。假设它是忠实且清晰的,隐式思维链使得能够读懂模型的思想并了解其思维过程。例如,人们将来可能希望监控思维链以寻找操控用户的迹象。
但要做到这一点,模型必须能够自由地以未改变的形式表达其思想,因此不能在思维链训练进行任何政策合规性或用户偏好性训练。OpenAI也不想让用户直接看到不一致的思维链。
因此,在权衡用户体验、竞争优势和追求思维链监控的选项等多种因素后,OpenAI决定不向用户展示原始的思维链。OpenAI承认这个决定有不好的地方,因此努力通过教导模型在答案中重现思维链中的任何有用想法来部分弥补。同时对于 o1 模型系列,OpenAI展示了模型生成的思维链摘要。
OpenAI o1-mini
o1系列擅长准确生成和调试复杂代码。为了为开发人员提供更有效的解决方案,OpenAI还发布了OpenAI o1-mini,这是一种更快、更便宜的推理模型,在编码方面特别有效。作为一个较小的模型,o1-mini比o1-preview便宜80%,使其成为需要推理但不需要广泛知识的应用程序的强大、经济高效的模型。
o1-mini擅长STEM,尤其是数学和编码——在AIME和Codeforce等评估基准上几乎与OpenAI o1的性能相当。预计o1-mini将是一种更快、更具成本效益的模型,适用于需要在没有广泛知识的情况下进行推理的应用程序。
STEM推理优化(Optimized for STEM Reasoning)
像o1这样的大型语言模型是在庞大的文本数据集上预先训练的。虽然这些高容量模型具有广泛的世界知识,但对于现实世界的应用来说,它们可能既昂贵又缓慢。相比之下,o1-mini是一个较小的模型,在预训练期间针对STEM推理进行了优化。在使用与o1相同的高计算强化学习(RL)管道进行训练后,o1-mini在许多有用的推理任务上取得了相当的性能,同时具有更高的性价比。
当在需要智能和推理的基准上进行评估时,o1-mini与o1-preview和o1相比表现良好。然而,o1-mini在需要非STEM事实知识的任务上表现较差。
数学能力:在高中AIME数学竞赛中,o1-mini(70.0%)与o1(74.4%)具有竞争力,同时价格明显更低,表现优于o1-preview(44.6%)。o1-mini的分数(约11/15个问题)使其跻身美国高中生前500名左右。
编码能力:在 Codeforces 竞赛网站上,o1-mini 的 Elo 得分为 1650,与 o1 (1673) 不相上下,并且高于 o1-preview (1258)。此外,o1-mini 在 HumanEval 编码基准和高中网络安全夺旗挑战 (CTF) 中也表现出色。
STEM:在一些需要推理的学术基准上,例如 GPQA(科学)和 MATH-500,o1-mini 的表现优于 GPT-4o。o1-mini 在MMLU 等任务上的表现则不如 GPT-4o,并且由于缺乏广泛的世界知识而在 GPQA 基准上落后于 o1-preview。
人类偏好评估:OpenAI让人类评分员在各个领域具有挑战性的开放式提示上比较 o1-mini 和 GPT-4o。与o1-preview 类似,在推理量大的领域,o1-mini 比 GPT-4o 更受欢迎;但在以语言为中心的领域,o1-mini 并不比 GPT-4o 更受青睐。
在速度层面,OpenAI 比较GPT-4o、o1-mini和 o1-preview 对一个单词推理问题的回答。结果显示,GPT-4o回答不正确,而 o1-mini 和 o1-preview 均回答正确,并且 o1-mini 得出答案的速度快了大约 3-5 倍。
安全性
o1-mini使用与o1-preview相同的对齐和安全技术进行训练。与GPT-4o相比,该模型在StrongREJECT数据集的内部版本上的越狱鲁棒性提高了59%。在部署之前,使用与o1-preview相同的安全评估方法,仔细评估了o1-mini的安全风险。