Back to Blog AlphaProof Nexus:AI 自动证明数学研究级开放问题

AlphaProof Nexus:AI 自动证明数学研究级开放问题

Paper
Google DeepMind · 2026-05-21
arXiv:2605.22763
一句话总结:DeepMind 用 LLM + Lean 形式化验证的 agentic loop,自动解决了 9 个 Erdős 开放问题(含 56 年悬而未决的难题)和 44 个 OEIS 猜想,并已在组合、优化、代数几何、量子光学等多个数学研究分支投入使用。最令人意外的发现:最简单的 LLM+编译器循环就能解决所有成功案例。

核心问题

LLM 在数学推理上越来越强,但生成自然语言证明不可靠——隐含的逻辑错误会级联传播,导致人类审稿成本极高。现有方案用 Lean 等形式化语言让编译器自动验证,但之前成功仅限于竞赛数学和辅助形式化人类已有的证明。在研究级开放问题上,AI 形式化证明到底能做到什么程度? 这是本文第一次大规模系统性回答的问题。

系统架构

AlphaProof Nexus 的核心是 LLM 子智能体循环"生成证明草稿 → Lean 编译器验证 → 反馈修正",并用进化算法协调多个子智能体的搜索。系统有四个递进版本:Agent A(基础 LLM + Lean 验证)→ Agent B(+ AlphaProof 工具)→ Agent C(+ 进化搜索 + Elo 评分)→ Agent D(全功能,AlphaProof + 进化)。

Agent Architecture
图:全功能 AlphaProof Nexus 智能体设计。LLM prover 子智能体精化证明草稿,可选调用 AlphaProof;进化算法用 Elo 评分筛选草稿种群驱动搜索。

证明过程的关键设计是"草稿精化"——子智能体不断修改 Lean 文件中的证明骨架,调用 AlphaProof 解决子目标,从失败中积累经验注释到草稿上,供下一次尝试参考。

主要成果

Example I/O
图:AlphaProof 智能体的输入输出示例(Erdős #125)。用户提供带 sorry 占位符的 Lean 文件,智能体推理并调用工具完成证明。

Erdős 问题9/353 — 在 Formal Conjectures 仓库中的 353 个 Erdős 开放上运行,解决了 9 个,包括两个悬而未决 56 年的难题(#12(i) 和 #125)。每个问题推理成本仅数百美元。

OEIS 猜想44/492 — 用 Gemini 自动将 492 个 OEIS 开放问题形式化为 Lean 语句,AI 证明了其中 44 个之前未被证明的猜想。

多领域突破凸优化(证明 Anchored GDA 精确收敛率 + 发现新参数调度)、代数几何(15 年 Hilbert 函数开放问题)、图论(Graffiti 1996 年猜想)、加法组合(Ben Green 问题列表 #57)、量子光学(单色量子图存在性)。

关键发现:简单 loop 的惊人力量

Cost vs Solve Rate
图:四类智能体在 Erdős 问题上的求解率 vs 推理成本(USD)。基础 Agent A 竟然也解决了全部 9 个问题,只是在难题上成本更高。

最基础的 Agent A(纯 LLM + Lean 验证循环)居然也解决了全部 9 个 Erdős 问题,只是在最难的问题上成本更高。这说明随着 LLM 能力提升,"编译器反馈驱动 LLM 推理"这个简单 loop 的威力被低估了。全功能 Agent D 的优势主要体现在最难的问题上(成本降低 2-5 倍),但差距在缩小。单独的 AlphaProof 树搜索和更小的模型都无法解决任何一个问题。

失败模式与局限

成功集中在 Lean 数学库成熟的领域(组合、优化、数论),大多数 Erdős 问题仍无法触及。两个典型失败模式:(1) 把核心困难"外包"给一个 sorry 占位符引理(本质是换个方式重述目标);(2) 幻觉引用不存在的文献引理。这恰恰说明了端到端形式化验证的不可替代性。

趋势判断

这篇文章指向一个清晰的走向:随着 LLM 能力增强,从"训练专用 RL 系统"转向"简单 agentic loop + 形式化验证反馈"正在成为数学 AI 的主路径。编译器反馈是最强的 grounding 机制。进化搜索和 AlphaProof 在最难问题上仍有价值,但差距在快速缩小。形式化 AI 的价值不仅是"解决问题",更在于帮助人类发现形式化错误、加深对问题结构的理解。

Tags: #Blog