当AI构建自身 - PaperDog Blog

我们对递归自我改进的进展及其影响的研究

Anthropic Institute · 2026年6月
作者：Marina Favaro & Jack Clark
原文链接 · 中文翻译

📋 目录

引言
来自外部的证据
来自Anthropic内部的证据
Claude编写的代码
研究
这意味着什么？
我们应该怎么做？

引言

在AI历史的大部分时间里，人类驱动着其开发周期的每一个步骤。但在Anthropic，我们正在将AI开发工作中越来越多的份额委托给AI系统本身，这加速了我们的工作。

这一趋势如果发展到极致，再配以足够的算力，就指向一个能够完全自主设计和开发自身后继版本的AI系统。这被称为递归自我改进（recursive self-improvement）。我们还没有达到那一步，递归自我改进也不是不可避免的。但它可能来得比大多数机构准备好的时间更早。

  核心数据：利用公开基准测试和Anthropic内部此前未报告的数据，Anthropic Institute正在展示AI已经在加速AI系统自身的开发。举一个例子：今天，Anthropic工程师平均每季度提交的代码量是2021-2025年期间的8倍。

8×

工程师代码产出
（对比2024年）

80%+

合并代码由Claude编写

4×

研究产出提升
（员工自评中位数）

76%

开放式任务成功率
（6个月提升50pp）

本文讨论的技术趋势表明，AI系统在未来几年将变得强大得多。这些趋势影响巨大。能够自我构建的AI将是技术史上的一项重大发展——它可能在科学、医疗等领域为世界带来巨大福祉。但完整的递归自我改进也可能增加人类失去对AI系统控制的风险。

来自外部的证据

AI模型改进的速率正在加快。它们能够自主可靠完成的任务时长，大约每四个月翻一番，高于此前每七个月翻一番的趋势。

时间线：

2024年3月 — Claude Opus 3 能完成人类大约4分钟的软件任务。
2025年3月 — Claude Sonnet 3.7 处理了大约需要人类1.5小时的任务。
2026年3月 — Claude Opus 4.6 处理了12小时的任务。
预测 — 如果趋势持续，2026年将覆盖"天数级"任务，2027年将覆盖"周数级"任务。

同样的模式也出现在编码和研究基准测试中：

SWE-bench（真实世界软件工程测试）：模型从个位数得分到两年内饱和该基准测试。
CORE-Bench（研究复现测试）：AI从2024年约20%复现成功率到十五个月后饱和。
METR（长持续时间任务）：Claude Mythos Preview可连续工作至少16小时，处于"METR能测量的上限"。

  但公开基准测试无法揭示AI系统对加速AI开发本身的影响。为此，我们需要Anthropic内部的直接证据。

来自Anthropic内部的证据

构建前沿模型需要两大类工作：

工程：编写代码、搭建基础设施、监督模型训练。
研究：决定运行什么实验、解读结果、找出下一步该尝试什么想法。

在两个领域，情况是一致的：

工程方面，Claude可以接手一个规格不明确的问题并想出解决方案；人类提供目标，但不再需要提供方法。
研究方面，Claude已经能匹配甚至超越熟练人类执行明确实验的能力。

然而，在研究判断力——选择正确问题、设计新颖方法、解读模糊结果的能力——方面，仍存在巨大差距。这正是今天的AI与未来能自主设计自身后继版本的系统之间的关键鸿沟。

Anthropic员工现在接到的任务比以往更加开放和重要，部分原因是Claude处理了大部分常规实现工作。员工正在转向"元"工作——设计更好的评估方法、规划项目、改进工具——而不是直接编写代码或运行实验。

Claude编写的代码

截至2026年5月，Anthropic合并到代码库的代码中超过80%由Claude编写。在2025年2月Claude Code发布之前，这个数字还是低个位数。

图1：每人每季度代码贡献量（2021年Q2至2026年Q2），标注了Claude各版本发布时间点

每位工程师每天合并的代码行数在Anthropic前四年（2021-2024）保持不变，然后在2025年Claude开始运行代码时开始攀升。2026年当模型开始在更长时间范围内自主工作时，斜率再次变陡。2026年第二季度，典型工程师每天合并的代码量是2024年的8倍。

"大约一年前我开始大力拥抱Claude化。这是一段疯狂的冒险，现在我已经大约5个月没有自己写过任何代码了。"
—— Anthropic员工

一个案例：2026年4月，Claude提交了800多个修复，将某类API错误减少了一千倍。监督Claude的工程师估计，人类完成这项工作需要四年。

  代码质量：在最开放的任务上，Claude的成功率在2026年5月达到76%，六个月内提高了50个百分点。许多Anthropic员工认为Claude编写的代码质量已在2026年中达到人类水平，预计年内超越。

图2：Claude Code在不同难度任务上的会话成功率，涵盖从简单到开放式的四类任务

这也改变了Anthropic审查代码的方式。提议的代码变更（来自人类和Claude）现在要经过一个本身由Claude大量自动化的审查流程。

研究

在研究方面，情况更为微妙但方向明确。Claude已经能匹配甚至超越熟练人类执行明确实验的能力。许多研究人员现在将常规实验的执行委托给Claude，利用节省的时间探索更多想法。

这产生了复合效应：运行更多实验 → 更多数据点 → 更好理解 → 更好的下一个实验。

图3："模型能否选择比人类更好的下一步实验？"——九个不同模型的表现对比

然而，在研究判断力方面——选择正确问题、设计新颖方法、解读模糊结果——仍存在巨大差距。这正是对递归自我改进最重要的差距。

这意味着什么？

数据是明确的：AI已经在显著加速AI自身的开发。而且速度在加快。Claude能力的每一次提升都使Claude更擅长帮助构建下一个版本的Claude。这是一个反馈循环——还不是完整的递归自我改进，但已经是朝那个方向的有意义的一步。

对齐（alignment）在这种未来中是否能被解决——这是我们最不确定的事情。可能的情况：

模型证明足够对齐，并具备足够的研究判断力，发现和实施我们尚未达到的新方案
模型足够明智，在条件不具备时暂停开发
或者，当今模型中罕见的错位现象在构建后继版本时复合增长，变得更频繁但更不为人所理解，直到我们失去控制

  阿姆达尔定律的启示：即使AI能无限自我改进，物理世界和社会制度有自己的时钟。药物需要10年临床验证，选举按宪法周期走，人际关系靠时间积累。AI实验室可能以算力速度运转，但大多数人感受到的未来节奏，仍然被这些瓶颈决定。递归智能不等于社会奇点。

我们预期具身智能（机器人技术）可能紧随递归智能之后，并遵循类似的收益递增、成本递减路径。但实现递归改进本身并不直接意味着工业生产方式、社会组织或市场运行方式的即时改变。

我们应该怎么做？

如果能有效放缓这项技术的发展，给我们更多时间来应对其巨大影响，我们认为这可能是件好事。但如果放缓只是让最不谨慎的行为者在技术上追赶上来，可能会让每个人都更不安全。

  我们认为世界应该拥有放缓或暂时暂停前沿AI开发的选择权。Anthropic Institute将帮助构建可信的放缓或暂停所需的系统——使前沿AI开发者能够可验证地确认其他方确实已经停止或放缓。

一个有意义的暂停需要：多个国家中多个前沿实验室在相同条件下同意停止；每一方都能验证其他方确实已停止。但训练运行比导弹发射井更容易隐藏，其投入是通用性的，偷偷叛逃的激励巨大。

世界已经为其他复杂技术建立了核查机制（如《中导条约》），但那些机制花了数十年才建立起基础设施和信任。我们没有那么长时间。

在未来几个月，我们将组织对话，让政策制定者、研究人员、民间社会和其他AI公司共同回答这些问题。我们会将讨论成果公开发布。共同探讨这些问题的窗口已经打开，AI公司之外的人应该参与这场讨论。