AI Agent 自动设计神经网络架构

      一句话：LLM Agent 在 Attention/MLP/Mamba 三原语组合空间里自动搜索，发现 14 个新架构，1B 规模超过 Llama 3.2 达 3.8%，isoFLOP scaling 快 71%。递归自改进的雏形。
    

总览

Meta FAIR 的最新工作直接瞄准递归自改进（RSI）：让 LLM Agent 自主发现和设计下一代基础模型的架构。论文提出两个互补框架——AIRA-Compose 做高层架构搜索，AIRA-Design 做低层机制设计。

AIRAhybrid-D 精度提升

+3.8%

vs Llama 3.2

Scaling 加速

71%

vs Composer Transformer

发现新架构

AIRAformer + AIRAhybrid

Figure 1: 总览。(a-b) 1B 规模固定 token 预算下的验证 loss 和 zero-shot 精度。(c) LRA 基准最佳精度。(d) Autoresearch 训练优化进度。

AIRA-Compose：高层架构搜索

搜索空间是 16 层网络，三种原语的不同排列组合。两层原语空间 65,536 种可能，三层约 4300 万种。11 个 agent 的集成在 24 小时计算预算内协同探索。

搜索分两阶段：先在百万参数规模快速评估（合成数据 MAD + BabiStories + DCLM 子集），再将 top 架构放大到 350M/1B/3B 完整评估。Agent 不只是随机搜索——它们会基于领域知识提出结构假设并迭代改进。

发现的两大家族

AIRAformers（纯 Transformer）和 AIRAhybrids（Transformer + Mamba）。Agent 自然地选择了非均匀排列，而非 Llama 式的简单 1:1 交替。下面是 AIRAformer-D 的层排列：

AIRAformer-D: 5 × (2A + M) + A — 注意力密集型

Figure 2: AIRA-Compose 框架。Agent 提出候选架构 → 小规模评估 → 聚合 → 放大到目标参数量。

Agent 的搜索过程

Agent 的搜索树展示了和传统 NAS 的本质区别——每次迭代都是有理有据的结构推理，不是盲目的随机变异。GPT-5 Agent 的搜索树中可以看到"Attention Warm-Start + Mamba Bottleneck + Alternating Tail"这样的设计概念。

Figure 3: GPT-5 Agent 搜索树（部分）。蓝色箭头为 improve 操作，红色为 debug 操作。每次迭代基于上一次结果的推理改进。

AIRA-Design：从零编写注意力机制

如果说 AIRA-Compose 是"搭积木"，AIRA-Design 是"发明新积木"。Agent 需要直接编写完整的 model.py 来处理长序列依赖（>2000-4000 tokens），避免 O(n²) 注意力矩阵。

Figure 4: AIRA-Design 框架。将 LRA 和 Autoresearch 转化为 AIRS-Bench 任务，Agent 从零实现计算原语和训练脚本。

LRA 基准详细结果 ▼

Task	Agent Best	Human SOTA	Gap
Document Matching	82%	84.3%	2.3pp
Text Classification	91%	93.6%	2.6pp
ListOps	0.51	0.59	8pp
Retrieval	0.79	0.82	3pp

Greedy Opus 4.6 在 ListOps (0.51) 和 Retrieval (0.79) 上表现最佳；Greedy Gemini 3 Pro 在 Text (0.88) 上领先。

性能对比：1B 规模预训练

展开：完整下游任务对比表（固定 37.5B token 预算） ▼

架构	Val Loss ↓	ARC-C	ARC-E	HellaS.	PIQA	SciQ	WinoG.	Avg ↑	DCLM ↑
Llama 3.2	2.815	26.1	62.3	41.4	72.2	87.2	56.0	57.5	46.9
Composite (Str.)	2.782	27.7	62.9	42.4	72.2	88.0	58.4	58.4	46.6
Composite (St.)	2.759	28.1	64.0	42.6	72.2	88.1	55.3	58.4	47.3
AIRAformer-D (Str.)	2.734	29.4	63.7	42.9	72.9	89.4	58.1	59.7	48.9
AIRAformer-D (St.)	2.745	29.1	63.1	42.9	72.4	88.7	58.9	59.0	48.4
AIRAhybrid-D (Str.)	2.719	29.8	65.4	43.7	73.0	88.6	57.9	59.6	48.5

Scaling 效率

跨 350M/1B/3B 三个参数规模、五种 FLOPs 预算的 120 个实验揭示了一个有趣模式：注意力密集的架构在固定 token 预算下表现更好，均衡型架构在 isoFLOP 下更高效。

Figure 5: isoFLOP Scaling 分析。五种 FLOPs 预算下各架构的验证 loss 及 scaling frontier。AIRAformer-C 的 scaling 效率远超 Llama 3.2。

关键 Takeaway

1. 递归自改进的雏形

Agent 设计的架构确实比现有手工设计更好。搜索空间虽受限（三种原语排列），但方向正确——Agent 正在向"设计自己的下一代"逼近。

2. Agent 的"直觉"有价值

GPT-5 搜索树中的"Attention Warm-Start + Mamba Bottleneck"等设计概念体现了有意义的语义探索，不是暴力搜索。

3. 可复现的研究范式

基于 AIRS-Bench 的 12 个 agentic tasks 有可扩展结构，可换不同 agent harness 和推理模型。标准化了 AI 自主科研的评估。

4. 混合架构 = 后 Transformer 主流

Agent 自然选择了非均匀混合排列，Attention-heavy 在长训练下占优，Hybrid 在效率上更均衡。

      和传统 NAS 的本质区别：传统 NAS 依赖贝叶斯优化、进化算法等固定策略，搜索受限于预定义模板。AIRA-Compose 的优势是语义多样化探索——Agent 能利用领域知识提出非显而易见的架构。跨数百个搜索节点和多个独立 agent 的规模化部署，产生了传统方法难以达到的探索广度。