Back to Blog 当AI构建自身

当AI构建自身

Paper
我们对递归自我改进的进展及其影响的研究
Anthropic Institute · 2026年6月
作者:Marina Favaro & Jack Clark
原文链接 · 中文翻译

引言

在AI历史的大部分时间里,人类驱动着其开发周期的每一个步骤。但在Anthropic,我们正在将AI开发工作中越来越多的份额委托给AI系统本身,这加速了我们的工作。

这一趋势如果发展到极致,再配以足够的算力,就指向一个能够完全自主设计和开发自身后继版本的AI系统。这被称为递归自我改进(recursive self-improvement)。我们还没有达到那一步,递归自我改进也不是不可避免的。但它可能来得比大多数机构准备好的时间更早。

核心数据:利用公开基准测试和Anthropic内部此前未报告的数据,Anthropic Institute正在展示AI已经在加速AI系统自身的开发。举一个例子:今天,Anthropic工程师平均每季度提交的代码量是2021-2025年期间的8倍
工程师代码产出
(对比2024年)
80%+
合并代码由Claude编写
研究产出提升
(员工自评中位数)
76%
开放式任务成功率
(6个月提升50pp)

本文讨论的技术趋势表明,AI系统在未来几年将变得强大得多。这些趋势影响巨大。能够自我构建的AI将是技术史上的一项重大发展——它可能在科学、医疗等领域为世界带来巨大福祉。但完整的递归自我改进也可能增加人类失去对AI系统控制的风险。

来自外部的证据

AI模型改进的速率正在加快。它们能够自主可靠完成的任务时长,大约每四个月翻一番,高于此前每七个月翻一番的趋势。

时间线:

2024年3月 — Claude Opus 3 能完成人类大约4分钟的软件任务。
2025年3月 — Claude Sonnet 3.7 处理了大约需要人类1.5小时的任务。
2026年3月 — Claude Opus 4.6 处理了12小时的任务。
预测 — 如果趋势持续,2026年将覆盖"天数级"任务,2027年将覆盖"周数级"任务。

同样的模式也出现在编码和研究基准测试中:

SWE-bench(真实世界软件工程测试):模型从个位数得分到两年内饱和该基准测试。
CORE-Bench(研究复现测试):AI从2024年约20%复现成功率到十五个月后饱和
METR(长持续时间任务):Claude Mythos Preview可连续工作至少16小时,处于"METR能测量的上限"。

但公开基准测试无法揭示AI系统对加速AI开发本身的影响。为此,我们需要Anthropic内部的直接证据。

来自Anthropic内部的证据

构建前沿模型需要两大类工作:

工程:编写代码、搭建基础设施、监督模型训练。
研究:决定运行什么实验、解读结果、找出下一步该尝试什么想法。

在两个领域,情况是一致的:

  • 工程方面,Claude可以接手一个规格不明确的问题并想出解决方案;人类提供目标,但不再需要提供方法。
  • 研究方面,Claude已经能匹配甚至超越熟练人类执行明确实验的能力。

然而,在研究判断力——选择正确问题、设计新颖方法、解读模糊结果的能力——方面,仍存在巨大差距。这正是今天的AI与未来能自主设计自身后继版本的系统之间的关键鸿沟

Anthropic员工现在接到的任务比以往更加开放和重要,部分原因是Claude处理了大部分常规实现工作。员工正在转向"元"工作——设计更好的评估方法、规划项目、改进工具——而不是直接编写代码或运行实验。

Claude编写的代码

截至2026年5月,Anthropic合并到代码库的代码中超过80%由Claude编写。在2025年2月Claude Code发布之前,这个数字还是低个位数。

每人每季度代码贡献柱状图
图1:每人每季度代码贡献量(2021年Q2至2026年Q2),标注了Claude各版本发布时间点

每位工程师每天合并的代码行数在Anthropic前四年(2021-2024)保持不变,然后在2025年Claude开始运行代码时开始攀升。2026年当模型开始在更长时间范围内自主工作时,斜率再次变陡。2026年第二季度,典型工程师每天合并的代码量是2024年的8倍。

"大约一年前我开始大力拥抱Claude化。这是一段疯狂的冒险,现在我已经大约5个月没有自己写过任何代码了。"
—— Anthropic员工

一个案例:2026年4月,Claude提交了800多个修复,将某类API错误减少了一千倍。监督Claude的工程师估计,人类完成这项工作需要四年

代码质量:在最开放的任务上,Claude的成功率在2026年5月达到76%,六个月内提高了50个百分点。许多Anthropic员工认为Claude编写的代码质量已在2026年中达到人类水平,预计年内超越。
Claude Code会话成功率折线图
图2:Claude Code在不同难度任务上的会话成功率,涵盖从简单到开放式的四类任务

这也改变了Anthropic审查代码的方式。提议的代码变更(来自人类和Claude)现在要经过一个本身由Claude大量自动化的审查流程

研究

在研究方面,情况更为微妙但方向明确。Claude已经能匹配甚至超越熟练人类执行明确实验的能力。许多研究人员现在将常规实验的执行委托给Claude,利用节省的时间探索更多想法。

这产生了复合效应:运行更多实验 → 更多数据点 → 更好理解 → 更好的下一个实验。

模型能否选择比人类更好的下一步实验
图3:"模型能否选择比人类更好的下一步实验?"——九个不同模型的表现对比

然而,在研究判断力方面——选择正确问题、设计新颖方法、解读模糊结果——仍存在巨大差距。这正是对递归自我改进最重要的差距

这意味着什么?

数据是明确的:AI已经在显著加速AI自身的开发。而且速度在加快。Claude能力的每一次提升都使Claude更擅长帮助构建下一个版本的Claude。这是一个反馈循环——还不是完整的递归自我改进,但已经是朝那个方向的有意义的一步。

对齐(alignment)在这种未来中是否能被解决——这是我们最不确定的事情。可能的情况:

  • 模型证明足够对齐,并具备足够的研究判断力,发现和实施我们尚未达到的新方案
  • 模型足够明智,在条件不具备时暂停开发
  • 或者,当今模型中罕见的错位现象在构建后继版本时复合增长,变得更频繁但更不为人所理解,直到我们失去控制
阿姆达尔定律的启示:即使AI能无限自我改进,物理世界和社会制度有自己的时钟。药物需要10年临床验证,选举按宪法周期走,人际关系靠时间积累。AI实验室可能以算力速度运转,但大多数人感受到的未来节奏,仍然被这些瓶颈决定。递归智能不等于社会奇点。

我们预期具身智能(机器人技术)可能紧随递归智能之后,并遵循类似的收益递增、成本递减路径。但实现递归改进本身并不直接意味着工业生产方式、社会组织或市场运行方式的即时改变。

我们应该怎么做?

如果能有效放缓这项技术的发展,给我们更多时间来应对其巨大影响,我们认为这可能是件好事。但如果放缓只是让最不谨慎的行为者在技术上追赶上来,可能会让每个人都更不安全。

我们认为世界应该拥有放缓或暂时暂停前沿AI开发的选择权。Anthropic Institute将帮助构建可信的放缓或暂停所需的系统——使前沿AI开发者能够可验证地确认其他方确实已经停止或放缓。

一个有意义的暂停需要:多个国家中多个前沿实验室在相同条件下同意停止;每一方都能验证其他方确实已停止。但训练运行比导弹发射井更容易隐藏,其投入是通用性的,偷偷叛逃的激励巨大。

世界已经为其他复杂技术建立了核查机制(如《中导条约》),但那些机制花了数十年才建立起基础设施和信任。我们没有那么长时间。

在未来几个月,我们将组织对话,让政策制定者、研究人员、民间社会和其他AI公司共同回答这些问题。我们会将讨论成果公开发布。共同探讨这些问题的窗口已经打开,AI公司之外的人应该参与这场讨论。
Tags: #Blog