文章来源:硅星GenAI
原文链接:https://mp.weixin.qq.com/s/4EZs7e35EKH01gEE0aibKQ
传闻中的“草莓”模型终于问世!
北京时间今日凌晨,OpenAI官宣发布o1-preview,其全新推理模型系列的首个预览版。
新模型专注于复杂任务推理,能在科学、编程和数学等领域解决比以往模型更难的问题。使用速度比GPT-4o慢,价格也更高,同时发布的还有小尺寸经济版本o1-mini。
以及这次不用等了:从今天起,ChatGPT Plus 和 Team 用户就可以访问 o1-preview 和 o1-mini,企业和教育用户将在下周早些时候获得权限,而o1-mini 则计划对所有 ChatGPT免费用户开放。
使用时只需在模型下拉菜单中手动选择即可。目前o1-preview 每周的消息限制为 30 条,o1-mini 为 50 条。
开发者如果达到tier 5级别,也可以立即通过API 调用这两个模型,只是成本较高:o1-preview每百万输入标记15 美元,每百万输出标记 60 美元。相比之下GPT-4o 的对应费用分别为5美元和15美元。
Sam Altman随即发文,“Jimmy们,耐心时刻结束了。”
#01 擅长复杂推理,STEM技能堪比博士
据 OpenAI 称,o1 与 GPT-4o 的主要区别在于它更擅长解决复杂问题。在回答问题前会像人类一样花更多时间思考,产生一条长的内部思维链,并向用户解释推理过程。
经过训练,它还能优化思维过程、尝试不同策略以及识别自身错误,因此幻觉也相应减少。
在测试中,新模型在物理、化学和生物学等具有挑战性的基准任务上可以媲美博士生表现,数学和编程方面表现尤为突出。
由于现有前沿模型在MATH和GSM8K测试中的表现已十分出色,以至于这些基准测试不再能有效区分模型,因此OpenAI选用了难度更大、被作为国际数学奥林匹克竞赛(IMO)资格选拔的AIME考试。
结果显示, GPT-4o 仅能正确解答 13% 的问题,而o1得分高达 83%,跻身美国前500名学生之列,成功获得奥赛资格。
在 Codeforces 编程比赛中,o1同样拿到89%的优异成绩。OpenAI还基于o1特别训练了一个更擅长编程的新模型o1-ioi,后者得分更夸张,直接超过93%的参赛者。
在评估化学、物理和生物领域专业知识的GPQA-diamond测试中,o1成为首个表现胜过人类专家的模型。另外它在MMLU的57个子类中有54个超越了GPT-4o。
官方也放出几段视频demo,来证明o1-preview的能力:
比如解决“当公主的年龄是王子将来年龄的两倍,而公主的年龄曾经是他们现在年龄和的一半时,公主和王子的年龄是多少?”这个读起来都拗口的谜题。
模型缓冲了30秒,过程中逐步显示“思考、翻译问题、定义变量、解方程….”这些像人类推理一样的步骤,最终显示正确答案,公主的年龄是某个全新自然数k的6倍,而王子的年龄是k的8倍。
以及生成一个名为“松鼠寻找者”游戏代码的编程任务。
o1-preview会先思考,规划代码的结构以确保符合要求。工作人员给出指令,“玩家通过箭头控制考拉,草莓每秒生成并弹跳,玩家需要躲避草莓并在3秒后找到松鼠获胜。”模型经过21秒思考后生成了代码,测试显示,游戏可以顺利运行。
还有大模型频频翻车的“Strawberry”单词里有几个“r”的问题。
研究团队解释说,GPT-4o 等高级模型会犯这样的简单错误,是因为这些模型为处理文本而构建,而非处理字符或单词。而o1-preview是一个推理模型,可以推理出正确答案,并自我检查输出。
我们马上打开o1-preview试了一把,果然丝滑。
又用GPT-4o测试,也得出了3个“r”的正确答案,但是少了分析推理过程。
不过o1-preview也不是万能的。评估显示,在数据分析、编程等需要高推理能力的任务中,o1-preview 的表现明显优于 GPT-4o,获得了更高的人类偏好度。但在写作和编辑等自然语言处理任务中,它的优势却并不明显,且无法浏览网页或处理文件和图像。
因此OpenAI建议,该系列推理模型更适合面对科学、编程、数学及类似领域复杂问题的人群。比如供研究人员注释细胞测序数据,物理学家生成量子光学所需的复杂数学公式,以及各领域开发人员构建和执行多步骤工作流程等。
对于更广泛的人群,则可以在更具成本效益的o1-mini和GPT-4o间平衡选择。
o1-mini同样在STEM领域表现出色,尤其是数学和编程评估基准上几乎与OpenAI o1能力相匹配。但它的价格却比o1-preview低80%,速度也快3-5倍。
尽管如此,OpenAI 仍然相信o1代表了当前AI能力的全新水平,命名为 o1 也是为了表示“从头开始归零”。
Sam Altman将其称为“我们迄今为止最强大且对齐良好的模型。”尽管仍然有缺陷,仍然有局限性,但这“标志着一个新范式的开始:能够进行通用复杂推理的 AI。”
#02 完全不同于GPT的训练方式,实现类人“思维链”推理
与早期的GPT模型不同,o1通过强化学习技术进行训练。
该算法基于奖励和惩罚机制,通过试错过程让模型不断调整决策,最终找到能够最大化长期回报的策略。学习方式类似于生物体通过经验积累来适应环境,从而优化行为。经过在专有数据集上的高效训练流程,o1能够运用类似人类“思维链”的推理方式,逐步推演出正确答案。
OpenAI发现,随着强化学习的深入和推理时间的增加,o1的性能会持续提升。相比传统的LLM预训练,这种方法在扩展性上的限制显著不同,对此团队仍在持续研究中。
Greg Brockman(休长假版)解释道,“可以这样理解:我们的模型现在具备了系统I型思维,而‘思维链’解锁了系统II型思维。人们已经发现,当模型按照‘逐步思考’的提示进行推理时,性能会大幅提升。而通过试错的方式端到端地训练模型进行这种思考,比单纯提示要更可靠——正如我们在围棋或Dota等游戏中看到的那样,这种训练方式能够产生极为惊艳的结果。”
OpenAI称,为了更好地监控模型行为,尤其是防止模型试图操控用户,决定不公开o1的“思维链”过程。为了确保模型能自由表达真实想法,团队并未对推理链进行修改或直接展示给用户。虽然这种方式存在一定局限性,但团队会通过让模型在最终回答中融入有用的推理内容来进行弥补。因此对于o1系列,用户只会看到简化的推理链摘要,而非完整的思维过程。
团队也表示后续将通过持续迭代发布更为完善的版本。“我们相信,这些新的推理能力将有助于模型更好地与人类价值观和原则保持一致,同时在科学、编程、数学等领域解锁更多AI的应用潜力。”
#03 “草莓教”复兴,奥特曼:请感激
OpenAI新模型一出,“草莓教”集体复活了。
Jimmy Apples鼓掌称,OpenAI故事第二章Straberry Fields终于开启。
即插即用,确实有点儿不像OpenAI历来的期货风格了。
有人觉得,OpenAI o1一出,马上碾压Claude 3.5、replit、Cursor等以编程能力见长的AI工具。
已经有人结合了OpenAI o1和Cursor Composer创建iOS应用程序:
“我用o1 mini启动了这个项目(因为o1的思考时间太长),然后切换回o1来完成细节部分。然后,boom!——在不到10分钟内,就完成了带有动画效果的iOS天气应用程序☀️”
英伟达首席研究经理Jim Fan说,“OpenAI发布了新的Strawberry (o1)模型,我们终于看到推理能力扩展的新范式被推广并应用到生产中!”
Jim fan认为,o1的意义在于不再只是通过增加模型规模来提升表现,而是通过优化推理过程。也就意味着人们不需要一个庞大的模型去完成复杂的推理任务,而是可以依赖一个“小而精”的推理核心,配合一些外部工具来解决问题。他给出几点分析:
1. 小模型也能推理:大模型通常有很多参数,用来记住大量事实,但推理和知识是可以分离的。你可以用一个较小的模型专注于推理,而不是记忆所有的事实。这种方式还能减少预训练的计算需求。
2. 更多计算放在推理阶段:不像之前的模型主要依赖训练阶段,现在很多计算资源是在推理时使用的。模型像模拟器一样,尝试多种可能的解决方案,直到找到最好的答案。这种做法类似于AlphaGo下棋时的思路。
3. 推理时的计算扩展更有效:OpenAI很早就认识到,优化推理过程会比扩大模型本身更有效。最近的研究也表明,较小的模型通过优化推理计算可以击败更大的模型。
4. 实际应用挑战大:在真实环境中使用o1比在实验室测试中更难。你需要知道什么时候停止推理、如何定义成功、什么时候调用工具来帮助模型解决问题,并且还要考虑计算成本。
5. 数据越用越好:Strawberry很容易变成一个数据飞轮。如果答案是正确的,整个搜索过程就会变成一个包含正负奖励的小型训练数据集。它可以帮助模型在未来变得更聪明,类似于AlphaGo通过不断的对弈提升自己的水平。
发布几个小时后,OpenAI还带来了一个非常符合自己style的“小甜点”。把o1团队的部分研究人员带到台前,浅介绍了一下模型开发的心路历程。感觉又有几个“星”要被造出来了。
全网激动之情溢于言表,也让人越发好奇下月的OpenAI开发者日上又会带来哪些新东西,以及被外界誉为“GPT-5”的猎户座会是什么形态。(抽到票的同学举手一下)
不过今天另外一件很有意义的事,似乎有些被OpenAI新模型盖过了光芒:马斯克旗下SpaceX的“北极星黎明计划”,让人类实现了首次商业太空行走。
不知道奥特曼是不是有意而为之。但对于拆自己台的网友,他可没忍住回怼:
“我们什么时候能得到新的语音功能??”
“要不要先对从天而降的魔幻智能表示几周感激,然后你就能很快得到更多新玩具了?”
本文链接:https://www.aixinzhijie.com/article/6846686
转载请注明文章出处