(红杉资本专访 OpenAI IMO金牌团队精彩片段)
7 月 30 日,硅谷。
在红杉资本的播客现场,OpenAI IMO 团队的三位成员——研究科学家 Alex Wei、研究工程师 Sheryl Hsu 与研究科学家 Noam Brown 讲述了一个听起来几乎不真实的故事:
只用了 3 个人、60 天,他们在一场数学竞赛中创造了 AI 推理史上的转折点。
OpenAI 模型,在 2025 年国际数学奥林匹克(IMO)中,解出 5 道竞赛难题,用整整 100 分钟的“深思(DeepThinking)”,拿下官方金牌线成绩(35/总分42 分),首次挺进奥数最前沿。
但最震撼的,并不是它赢了。
而是——它没有解出第 6 题。
Alex 回忆说:“我们投入了大量计算资源,但它最后写下了‘我不知道’。”
这不是失败,而是一次选择。AI 第一次拒绝“胡编”答案,坦然承认:它解不出这道题。
这句“无答案”,与《华尔街日报》在几天前的报道形成呼应:Problem 6 是人类选手仍有压倒性优势的堡垒,连 Google DeepMind 的 Gemini 和 OpenAI 的其他推理模型也被同一道题“卡住”。
模型的胜利,在于它不再只为给出回答而回答。
它开始有了“边界感”、知道何时该沉默。
而这场关于「百分钟推理 × 自我认知 × 多智能体协作」的深度对话,不只是一次技术突破复盘,更像是一次智能本质的重新定义。
接下来的四节内容,我们将根据这场完整对话实录,还原 OpenAI 奥赛团队如何用三个人的努力,重写了 AI 推理的上限边界。
第一节|从小学题到奥数金牌,GPT 怎么做到的?
“几年前,这些模型连小学数学都搞不定。”Alex Wei 说。
Noam Brown 也记得:“2024 年的时候,大家还在用 GSM8K 给模型出题。那是小学应用题,三四年级的水平。”
而今天,OpenAI 的模型已经在国际数学奥林匹克(IMO)中,攻克了 5 道难题,达到了金牌水平。
这不是进步——是飞跃。两年来,它总共实现了三次这样的大跨越。
最早是 GSM8K(小学数学题库)。这个数据集考的是加减乘除、简单应用题,模型通常用几秒钟算出结果。
接下来是 MATH(竞赛数学题库),比 GSM8K 难一些,靠的是模式识别和基本符号运算。 很快,大家的注意力转向了 AMC(美国数学竞赛)、USAMO(美国奥数预赛),再到这次的 IMO 决赛。
“几乎每次新模型发布,就会突破一个数学基准。” Noam 说。
“我们不是换了模型,而是让它能‘多想一会儿’。”Alex 补充。
这次 OpenAI 的模型,每道题平均花了 20 分钟,总共运行了 整整 100 分钟。这个时间长度,是 GPT 系列第一次具备“持续思考能力”。
Alex 说:以前的模型思考时间是 0.1 分钟,十几秒;这次是 100 分钟。你可以把它想成,从一个‘快答题’的学生,变成一个‘能坐住认真做题’的人。
除了时间拉长,思考方式也变了。
旧模型会稍微引导一下,顺着就能写出解法。现在的系统,会尝试自己一步步分析题目,在过程中不断检查是否合理。
Noam 描述得很清晰:“现在它在想事情的方式上,已经不像个语言模型了,反而像个真正的‘做题家’。”
Sheryl 补充:“它有时解题风格很奇怪,像外星语言,但答案是对的。你会感觉它在真正推理,而不是套模板。”
但这背后,并没有什么“绝招”。
Alex 表示:我们没有发明新的公式,也没有喂它奥数秘籍。我们只是让它有更多时间去推理,并且设计了一些方法帮它维持住注意力。
换句话说,OpenAI 并不是用更大的模型蛮力解决,而是教会它怎么“多想一会儿,别急着写答案”。
而这,恰恰是人类考试中最基本、也最难学的能力。
接下来,模型是怎么在“没改架构”的情况下,完成这样的认知进化? 它又是怎么在短短两个月内,把推理能力提上金牌线?
这背后,是一个出人意料的故事:三个人、一个工具系统、一次“从不被看好”的冲刺计划。
第二节|三人小队,两个月造出“会思考”的 AI
这场金牌突破,没有一支庞大的工程团队。
OpenAI 的 Alex Wei 说:“核心就我们三个。” Sheryl 补了一句:“其实是 Alex 一直在研究这个方向,我和 Noam 后来加入,是在模型越来越接近目标之后。”
三个人,花了两个月,就让模型达到了IMO金牌水平
但这背后,他们不是靠“更多题”或者“更复杂的模型”,而是找到了一种让模型想得更久、更稳的方式。
01|不是“换脑子”,而是“延长思考时间”
Noam 说得很清楚:
我们发现一个关键问题是,模型能不能思考更久。
以前的模型,遇到难题会很快放弃,或者给出一个看似合理但其实是错的答案。
Alex 想测试:如果我们把思考时间从十几秒,拉长到几十分钟,甚至几个小时,会发生什么?
结果证明:模型不是不会做题,而是“时间不够”。
他们的第一个方法,就是约束模型——不让它太快写答案,而是先拆问题、反复尝试、一步步算清楚。
Alex 说:我们没做太多花哨的事,核心就是让模型多想一会儿,别急着结束。
02|多智能体协作:让模型“跟自己讨论”
不过,延长时间带来的一个挑战是——模型会走神。
思考几十分钟,不是像人那样坐着发呆,而是要模型保持专注,别绕偏了。
为了解决这个问题,他们用了一个聪明的办法:让模型创建多个'分身',互相检查和讨论。
Sheryl 解释道:
“你可以理解成我们让模型自问自答,自我辩论,有时候还自己复查自己的过程。”
Noam 提到,他们的系统涉及扩展并行计算,其中包含多智能体组件。虽然底层很复杂,但逻辑不难懂:不是让一个模型死磕,而是让它模拟多个"头脑",一起思考。
这个结构,在对付难以验证对错的题目时特别有用。
IMO 这种题目,答案是确定的,但证明过程复杂,需要严密的逻辑推理。多个模型相互验证、讨论,比单个模型单打独斗更能确保逻辑的完整性。
03|为什么不选 Lean?因为目标是“通用推理”
很多人以为,这种题是不是该用 Lean 这样的“正式数学工具”来辅助模型。
Alex直接回应了这个问题:
“Lean 有价值,但我们关注的不是形式证明,而是让模型像人类一样理解问题、用自然语言解题。”
Noam 补充说:“我们追的是通用能力,而不是一个专门为奥数设计的系统。”
也就是说,他们不是为了 IMO 去造一个擅长考试的机器人,而是反过来——用 IMO 当作一个测试场,检验模型在真正难题面前的“思考能力”有没有进化。
而这个策略,后来被 OpenAI 内部广泛认可。Sheryl 透露:
“我们用的基础设施,和其他 OpenAI 产品是一样的。这不是孤立项目。”
换句话说,这套“长时间思考 + 多角色讨论”的方式,不是为了一场比赛而生的,而是正在变成 OpenAI 系统训练的通用部件。
在短短两个月里,Alex 带着这个想法开始测试,Sheryl 和 Noam 加入打磨细节。他们没有大张旗鼓,没有调动庞大团队,仅凭几个人、一些算力,加上一套清晰的训练方法。
最终,这个模型达到了两年前不敢想象的高度——当时它连小学数学都搞不定。
第三节|AI 第一次说“不知道”:边界感从哪来?
(从左往右依次是红杉合伙人Sonya Huang、Alex Wei、Sheryl Hsu和Noam Brown)
比赛当天,OpenAI 的模型顺利地解出了前五题。
但当团队把第 6 题输入进去,模型却“退缩”了。
Alex 说:“我们投入了大量计算资源,它试着解这道题,但最后什么也没写,只说了一句:‘无答案’。”
模型本可以像以往一样瞎写点什么,但这一次它选择了停下来。