AIRA-Compose + AIRA-Design — Meta FAIR 的递归自改进探索
总览
Meta FAIR 的最新工作直接瞄准递归自改进(RSI):让 LLM Agent 自主发现和设计下一代基础模型的架构。论文提出两个互补框架——AIRA-Compose 做高层架构搜索,AIRA-Design 做低层机制设计。
AIRA-Compose:高层架构搜索
搜索空间是 16 层网络,三种原语的不同排列组合。两层原语空间 65,536 种可能,三层约 4300 万种。11 个 agent 的集成在 24 小时计算预算内协同探索。
搜索分两阶段:先在百万参数规模快速评估(合成数据 MAD + BabiStories + DCLM 子集),再将 top 架构放大到 350M/1B/3B 完整评估。Agent 不只是随机搜索——它们会基于领域知识提出结构假设并迭代改进。
发现的两大家族
AIRAformers(纯 Transformer)和 AIRAhybrids(Transformer + Mamba)。Agent 自然地选择了非均匀排列,而非 Llama 式的简单 1:1 交替。下面是 AIRAformer-D 的层排列:
Agent 的搜索过程
Agent 的搜索树展示了和传统 NAS 的本质区别——每次迭代都是有理有据的结构推理,不是盲目的随机变异。GPT-5 Agent 的搜索树中可以看到"Attention Warm-Start + Mamba Bottleneck + Alternating Tail"这样的设计概念。
AIRA-Design:从零编写注意力机制
如果说 AIRA-Compose 是"搭积木",AIRA-Design 是"发明新积木"。Agent 需要直接编写完整的 model.py 来处理长序列依赖(>2000-4000 tokens),避免 O(n²) 注意力矩阵。
| Task | Agent Best | Human SOTA | Gap |
|---|---|---|---|
| Document Matching | 82% | 84.3% | 2.3pp |
| Text Classification | 91% | 93.6% | 2.6pp |
| ListOps | 0.51 | 0.59 | 8pp |
| Retrieval | 0.79 | 0.82 | 3pp |
Greedy Opus 4.6 在 ListOps (0.51) 和 Retrieval (0.79) 上表现最佳;Greedy Gemini 3 Pro 在 Text (0.88) 上领先。
性能对比:1B 规模预训练
| 架构 | Val Loss ↓ | ARC-C | ARC-E | HellaS. | PIQA | SciQ | WinoG. | Avg ↑ | DCLM ↑ |
|---|---|---|---|---|---|---|---|---|---|
| Llama 3.2 | 2.815 | 26.1 | 62.3 | 41.4 | 72.2 | 87.2 | 56.0 | 57.5 | 46.9 |
| Composite (Str.) | 2.782 | 27.7 | 62.9 | 42.4 | 72.2 | 88.0 | 58.4 | 58.4 | 46.6 |
| Composite (St.) | 2.759 | 28.1 | 64.0 | 42.6 | 72.2 | 88.1 | 55.3 | 58.4 | 47.3 |
| AIRAformer-D (Str.) | 2.734 | 29.4 | 63.7 | 42.9 | 72.9 | 89.4 | 58.1 | 59.7 | 48.9 |
| AIRAformer-D (St.) | 2.745 | 29.1 | 63.1 | 42.9 | 72.4 | 88.7 | 58.9 | 59.0 | 48.4 |
| AIRAhybrid-D (Str.) | 2.719 | 29.8 | 65.4 | 43.7 | 73.0 | 88.6 | 57.9 | 59.6 | 48.5 |
Scaling 效率
跨 350M/1B/3B 三个参数规模、五种 FLOPs 预算的 120 个实验揭示了一个有趣模式:注意力密集的架构在固定 token 预算下表现更好,均衡型架构在 isoFLOP 下更高效。