Back to Blog AI Agent 自动设计神经网络架构

AI Agent 自动设计神经网络架构

Paper

AIRA-Compose + AIRA-Design — Meta FAIR 的递归自改进探索

2605.15871  |  Meta FAIR  |  Alberto Pepe, Chien-Yu Lin 等
arxiv.org/abs/2605.15871
Neural Architecture Search Recursive Self-Improvement Hybrid LLM Agent Meta FAIR
一句话:LLM Agent 在 Attention/MLP/Mamba 三原语组合空间里自动搜索,发现 14 个新架构,1B 规模超过 Llama 3.2 达 3.8%,isoFLOP scaling 快 71%。递归自改进的雏形。

总览

Meta FAIR 的最新工作直接瞄准递归自改进(RSI):让 LLM Agent 自主发现和设计下一代基础模型的架构。论文提出两个互补框架——AIRA-Compose 做高层架构搜索,AIRA-Design 做低层机制设计。

AIRAhybrid-D 精度提升
+3.8%
vs Llama 3.2
Scaling 加速
71%
vs Composer Transformer
发现新架构
14
AIRAformer + AIRAhybrid
Figure 1
Figure 1: 总览。(a-b) 1B 规模固定 token 预算下的验证 loss 和 zero-shot 精度。(c) LRA 基准最佳精度。(d) Autoresearch 训练优化进度。

AIRA-Compose:高层架构搜索

搜索空间是 16 层网络,三种原语的不同排列组合。两层原语空间 65,536 种可能,三层约 4300 万种。11 个 agent 的集成在 24 小时计算预算内协同探索。

搜索分两阶段:先在百万参数规模快速评估(合成数据 MAD + BabiStories + DCLM 子集),再将 top 架构放大到 350M/1B/3B 完整评估。Agent 不只是随机搜索——它们会基于领域知识提出结构假设并迭代改进。

发现的两大家族

AIRAformers(纯 Transformer)和 AIRAhybrids(Transformer + Mamba)。Agent 自然地选择了非均匀排列,而非 Llama 式的简单 1:1 交替。下面是 AIRAformer-D 的层排列:

AIRAformer-D: 5 × (2A + M) + A — 注意力密集型
A
A
M
A
A
M
A
A
M
A
A
M
A
A
M
A
Figure 2
Figure 2: AIRA-Compose 框架。Agent 提出候选架构 → 小规模评估 → 聚合 → 放大到目标参数量。

Agent 的搜索过程

Agent 的搜索树展示了和传统 NAS 的本质区别——每次迭代都是有理有据的结构推理,不是盲目的随机变异。GPT-5 Agent 的搜索树中可以看到"Attention Warm-Start + Mamba Bottleneck + Alternating Tail"这样的设计概念。

Figure 3
Figure 3: GPT-5 Agent 搜索树(部分)。蓝色箭头为 improve 操作,红色为 debug 操作。每次迭代基于上一次结果的推理改进。

AIRA-Design:从零编写注意力机制

如果说 AIRA-Compose 是"搭积木",AIRA-Design 是"发明新积木"。Agent 需要直接编写完整的 model.py 来处理长序列依赖(>2000-4000 tokens),避免 O(n²) 注意力矩阵。

Figure 4
Figure 4: AIRA-Design 框架。将 LRA 和 Autoresearch 转化为 AIRS-Bench 任务,Agent 从零实现计算原语和训练脚本。
LRA 基准详细结果
TaskAgent BestHuman SOTAGap
Document Matching82%84.3%2.3pp
Text Classification91%93.6%2.6pp
ListOps0.510.598pp
Retrieval0.790.823pp

Greedy Opus 4.6 在 ListOps (0.51) 和 Retrieval (0.79) 上表现最佳;Greedy Gemini 3 Pro 在 Text (0.88) 上领先。

性能对比:1B 规模预训练

展开:完整下游任务对比表(固定 37.5B token 预算)
架构Val Loss ↓ARC-CARC-EHellaS.PIQASciQWinoG.Avg ↑DCLM ↑
Llama 3.22.81526.162.341.472.287.256.057.546.9
Composite (Str.)2.78227.762.942.472.288.058.458.446.6
Composite (St.)2.75928.164.042.672.288.155.358.447.3
AIRAformer-D (Str.)2.73429.463.742.972.989.458.159.748.9
AIRAformer-D (St.)2.74529.163.142.972.488.758.959.048.4
AIRAhybrid-D (Str.)2.71929.865.443.773.088.657.959.648.5

Scaling 效率

跨 350M/1B/3B 三个参数规模、五种 FLOPs 预算的 120 个实验揭示了一个有趣模式:注意力密集的架构在固定 token 预算下表现更好,均衡型架构在 isoFLOP 下更高效。

Figure 5
Figure 5: isoFLOP Scaling 分析。五种 FLOPs 预算下各架构的验证 loss 及 scaling frontier。AIRAformer-C 的 scaling 效率远超 Llama 3.2。

关键 Takeaway

1. 递归自改进的雏形
Agent 设计的架构确实比现有手工设计更好。搜索空间虽受限(三种原语排列),但方向正确——Agent 正在向"设计自己的下一代"逼近。
2. Agent 的"直觉"有价值
GPT-5 搜索树中的"Attention Warm-Start + Mamba Bottleneck"等设计概念体现了有意义的语义探索,不是暴力搜索。
3. 可复现的研究范式
基于 AIRS-Bench 的 12 个 agentic tasks 有可扩展结构,可换不同 agent harness 和推理模型。标准化了 AI 自主科研的评估。
4. 混合架构 = 后 Transformer 主流
Agent 自然选择了非均匀混合排列,Attention-heavy 在长训练下占优,Hybrid 在效率上更均衡。
和传统 NAS 的本质区别:传统 NAS 依赖贝叶斯优化、进化算法等固定策略,搜索受限于预定义模板。AIRA-Compose 的优势是语义多样化探索——Agent 能利用领域知识提出非显而易见的架构。跨数百个搜索节点和多个独立 agent 的规模化部署,产生了传统方法难以达到的探索广度。
Tags: #Blog