幸运5app 比IMO还难的数学挑战赛,谷歌赢了OpenAI
发布日期:2026-02-28 12:11 点击次数:124
IMO 金牌依然"逾期"了。
基于 Gemini 3 Deep Think 的谷歌数学智能体Aletheia在更难的挑战赛FirstProof中拿下的最好收获。
在公布的完满收获单中,10 说念题 Aletheia 全程0 东说念主工参与解出 6 说念,其中 5 题群众全票通过,还有一题拿到了 5/7 的通过率。

FirstProof 是由来自哈佛、斯坦福等名校的 11 位顶尖数学家联手打造的一套专门考据 AI 安稳科研才调的数学题集。
10 说念题全网无迹可循,没法儿背谜底舞弊,连陶哲轩皆转发说这事儿稀罕有利旨道理,推选温和。

不啻谷歌,OpenAI 里面模子也考了这套题,基本正确的有 5 题。
然而!谷歌全程 AI 自主,OpenAI 在磨练过程中动用了东说念主工来挑最好谜底(doge)。
谷歌后起之秀
FirstProof 由来自哈佛、斯坦福等名校的 11 位顶尖数学家出题。
和 IMO 这类竞赛题不同,最新挑战赛的 10 说念题不是圭臬化的竞赛题,而是班师扒自数学家们真正遭遇的艰巨,之前从没任何公竖立布过。
况兼,谜底皆是在 AI 考完之后才放出来的,这么就堵截了 AI 通过背谜底套模板的可能。
先看收获单,OpenAI 冲刺七天,在 5 个问题上基本正确,区分是:
4. 有限加性卷积与 Φ ₙ的合资平均不等式;
5. O- 适配切片滤过与切片连通性的几何不动点判据;
6. 大限制 ε - 轻极点子集;
9. 缩放四线性行列式张量之间的代数联系;
10. 含缺失数据的核化 CP – ALS 子问题:基于 Kronecker 预条目的无矩阵 PCG 形式。
其实,初期 OpenAI 公布的收获单有 6 题,后果第 2 题(非阿基米德局部域上 GL ₙ的 Rankin – Selberg 积分非零性判定)反复被社区指出有逻辑问题,于是团队保守改成 5 说念。

不外,团队裸露在在测试过程中东说念主工合营了该模子与 ChatGPT 之间的同样,用于考据、形式整理与风作风整。
有个别问题最终呈现的是东说念主工挑选的最好后果。
谷歌 Aletheia 这边,6 说念题齐备自主拿下,包括 OpenAI 被质疑的第 2 题。
在群众评审中,在 2、5、7、9、10 题获群众全票通过。
其中,第 7 题是公认的本套题聚会难度最高的一题,是一个公开未经管的问题,幸运5app直至本次 FirstProof 挑战赛发布圭臬谜底时,才由 Cappell – Weinberger – Yan 团队完成初次经管。
第 8 题天然没全票通过,但也拿到了 5/7 的高分。
对应的题目区分是:
2. 非阿基米德局部域上 GL ₙ的 Rankin – Selberg 积分非零性判定;
5. O- 适配切片滤过与切片连通性的几何不动点判据;
7. 含 2- 挠率的实半单群一致格的紧流形基本群可达成性;
8. 多面体拉格朗日曲面的 4- 极点 Lagrangian 光滑化存在性;
9. 缩放四线性行列式张量之间的代数联系;
10. 含缺失数据的核化 CP – ALS 子问题:基于 Kronecker 预条目的无矩阵 PCG 形式。
要从解题数目和模式来看的话,谷歌 Aletheia 不仅解题数多 1 个,比较之下还靠 AI 全程自主后起之秀。
{jz:field.toptypename/}
接下来,咱持续望望 Aletheia 到底是个什么移交。
AI 自主最好二选一
最初,底层模子即是之前拿了 IMO 金牌的 Gemini 3 Deep Think。
Aletheia 搭载了 AB 两个版块的 Gemini 3 Deep Think 模子,来了个最优二选一。(A 是 2026 年 2 月的最新版,B 是 2026 年 1 月的版块。)
然后是从读题到交卷的真 · 0 东说念主工滋扰解题经由。
Aletheia 能班师读取不经过东说念主类形式化的原始问题,自主推理后输出谜底。
再通过内置的考据与索求领导自动校验谜底的逻辑严谨性和规整形式,最终班师吐出 LaTeX 体式谜底。
况兼,剩下的没解出来的 4 说念题倒也不是错了,而是班师"拒答"。
这是由于由于含智能筛选机制,当 Aletheia 无法生成可靠的解释时,模子不会胡编乱造生成无效谜底,而是班师输出"无经管决议"的回应。

Aletheia 还能动态变嫌推理资源的分派,比如遭遇超难的第 7 题,它能自动参预远超成例题的推理算力,通过 Generator 子 agent 多轮生成 +Verifier 子 agent 严格校验,最终攻克。
而简便题则合理搁置算力,幸免资源销耗。
比如濒临第 10 题这种张量成见的数值型题时,Aletheia 给出了矩阵 - 向量收获高效野心的形式。
不班师生成超大维度的 Khatri-Rao 乘积矩阵 Z,而是通过动态生成所需行的神志,将每轮迭代的复杂度压缩到 O ( qr+n ² r ) ,比传统线性 solver 的 O ( n ³ r ³ ) 快几个量级。
这波谷歌后起之秀,下一轮问题集 3 月中旬就要来了,难度只会更高,咱翘首企足~
参考连合:
[ 1 ] https://x.com/lmthang/status/2021644542852968952
[ 2 ] https://mathstodon.xyz/@tao/116022211452443707
[ 3 ] https://x.com/polynoamial/status/2022527227049742779
一键三连「点赞」「转发」「防御心」
宽宥在指摘区留住你的思法!
— 完 —
� � 点亮星标 � �
科技前沿发扬逐日见

备案号: