引言
在AI历史的大部分时间里,人类驱动着其开发周期的每一个步骤。但在Anthropic,我们正在将AI开发工作中越来越多的份额委托给AI系统本身,这加速了我们的工作。
这一趋势如果发展到极致,再配以足够的算力,就指向一个能够完全自主设计和开发自身后继版本的AI系统。这被称为递归自我改进(recursive self-improvement)。我们还没有达到那一步,递归自我改进也不是不可避免的。但它可能来得比大多数机构准备好的时间更早。
(对比2024年)
(员工自评中位数)
(6个月提升50pp)
本文讨论的技术趋势表明,AI系统在未来几年将变得强大得多。这些趋势影响巨大。能够自我构建的AI将是技术史上的一项重大发展——它可能在科学、医疗等领域为世界带来巨大福祉。但完整的递归自我改进也可能增加人类失去对AI系统控制的风险。
来自外部的证据
AI模型改进的速率正在加快。它们能够自主可靠完成的任务时长,大约每四个月翻一番,高于此前每七个月翻一番的趋势。
时间线:
2024年3月 — Claude Opus 3 能完成人类大约4分钟的软件任务。
2025年3月 — Claude Sonnet 3.7 处理了大约需要人类1.5小时的任务。
2026年3月 — Claude Opus 4.6 处理了12小时的任务。
预测 — 如果趋势持续,2026年将覆盖"天数级"任务,2027年将覆盖"周数级"任务。
同样的模式也出现在编码和研究基准测试中:
SWE-bench(真实世界软件工程测试):模型从个位数得分到两年内饱和该基准测试。
CORE-Bench(研究复现测试):AI从2024年约20%复现成功率到十五个月后饱和。
METR(长持续时间任务):Claude Mythos Preview可连续工作至少16小时,处于"METR能测量的上限"。
来自Anthropic内部的证据
构建前沿模型需要两大类工作:
工程:编写代码、搭建基础设施、监督模型训练。
研究:决定运行什么实验、解读结果、找出下一步该尝试什么想法。
在两个领域,情况是一致的:
- 工程方面,Claude可以接手一个规格不明确的问题并想出解决方案;人类提供目标,但不再需要提供方法。
- 研究方面,Claude已经能匹配甚至超越熟练人类执行明确实验的能力。
然而,在研究判断力——选择正确问题、设计新颖方法、解读模糊结果的能力——方面,仍存在巨大差距。这正是今天的AI与未来能自主设计自身后继版本的系统之间的关键鸿沟。
Anthropic员工现在接到的任务比以往更加开放和重要,部分原因是Claude处理了大部分常规实现工作。员工正在转向"元"工作——设计更好的评估方法、规划项目、改进工具——而不是直接编写代码或运行实验。
Claude编写的代码
截至2026年5月,Anthropic合并到代码库的代码中超过80%由Claude编写。在2025年2月Claude Code发布之前,这个数字还是低个位数。
每位工程师每天合并的代码行数在Anthropic前四年(2021-2024)保持不变,然后在2025年Claude开始运行代码时开始攀升。2026年当模型开始在更长时间范围内自主工作时,斜率再次变陡。2026年第二季度,典型工程师每天合并的代码量是2024年的8倍。
—— Anthropic员工
一个案例:2026年4月,Claude提交了800多个修复,将某类API错误减少了一千倍。监督Claude的工程师估计,人类完成这项工作需要四年。
这也改变了Anthropic审查代码的方式。提议的代码变更(来自人类和Claude)现在要经过一个本身由Claude大量自动化的审查流程。
研究
在研究方面,情况更为微妙但方向明确。Claude已经能匹配甚至超越熟练人类执行明确实验的能力。许多研究人员现在将常规实验的执行委托给Claude,利用节省的时间探索更多想法。
这产生了复合效应:运行更多实验 → 更多数据点 → 更好理解 → 更好的下一个实验。
然而,在研究判断力方面——选择正确问题、设计新颖方法、解读模糊结果——仍存在巨大差距。这正是对递归自我改进最重要的差距。
这意味着什么?
数据是明确的:AI已经在显著加速AI自身的开发。而且速度在加快。Claude能力的每一次提升都使Claude更擅长帮助构建下一个版本的Claude。这是一个反馈循环——还不是完整的递归自我改进,但已经是朝那个方向的有意义的一步。
对齐(alignment)在这种未来中是否能被解决——这是我们最不确定的事情。可能的情况:
- 模型证明足够对齐,并具备足够的研究判断力,发现和实施我们尚未达到的新方案
- 模型足够明智,在条件不具备时暂停开发
- 或者,当今模型中罕见的错位现象在构建后继版本时复合增长,变得更频繁但更不为人所理解,直到我们失去控制
我们预期具身智能(机器人技术)可能紧随递归智能之后,并遵循类似的收益递增、成本递减路径。但实现递归改进本身并不直接意味着工业生产方式、社会组织或市场运行方式的即时改变。
我们应该怎么做?
如果能有效放缓这项技术的发展,给我们更多时间来应对其巨大影响,我们认为这可能是件好事。但如果放缓只是让最不谨慎的行为者在技术上追赶上来,可能会让每个人都更不安全。
一个有意义的暂停需要:多个国家中多个前沿实验室在相同条件下同意停止;每一方都能验证其他方确实已停止。但训练运行比导弹发射井更容易隐藏,其投入是通用性的,偷偷叛逃的激励巨大。
世界已经为其他复杂技术建立了核查机制(如《中导条约》),但那些机制花了数十年才建立起基础设施和信任。我们没有那么长时间。