核心洞察:主流 RLVR 数据集看似百花齐放,实则高度同源。145 万条训练数据中 99.7% 来自仅 20 个原子源头,36,148 条直接泄露了评测题。用归因洞察指导数据选择,可以构造出全面领先的 DAPO++。
TL;DR
RLVR(Reinforcement Learning from Verifiable Rewards)在 2025 年迎来数据集井喷,但数据来源不透明、评测泄露严重的问题被严重低估。ATLAS 提出系统化的原子源追踪框架,将 1.45M 条 RLVR 数据归因到 20 个原子源,并发现大规模 benchmark 泄露。在此基础上提出 SCA 归因方法和复合质量分数 Q,指导构造了 DAPO++ 数据集,在 Qwen3 系列上两个规模均全面领先。
背景:RLVR 数据集的"公地悲剧"
2025 年以来,RLVR 成为数学推理能力训练的主流范式。DeepScaleR、OpenR1-Math、DAPO-Math、Skywork-OR1、Still-3-RL 等十几个数据集密集发布,各自声称效果优异。但这些数据集之间存在大量重叠却无人量化;许多数据集(所谓"openly-closed")公开可用但来源不明;更严重的是,部分评测 benchmark 本身被直接纳入了训练数据。
这些问题的根源是缺乏系统化的数据溯源工具。ATLAS 就是为此而生。
ATLAS:四阶段原子源追踪框架
ATLAS 的设计很工程化,分四个阶段递进:
Stage 0 — 数据收集与规范化:收集所有主流 RLVR 数据集及其上下游数据,手动审查每条数据的 prompt-answer 结构,统一格式。由于各数据集 schema 差异巨大(MCQ vs 填空 vs 证明题、多种指令格式混杂),这一步需要大量人工。
Stage 1 — 时间索引哈希匹配:对每条 prompt 计算 SHA-1 哈希,按时间顺序建立全局血缘字典。精确匹配效率高,覆盖了大量直接复制的数据。
Stage 2 — 语义相似度匹配:对 Stage 1 未匹配的数据用 Sentence-BERT 编码,通过余弦相似度检索候选匹配,再逐条人工审核确认。
Stage 3 — 迭代源恢复:对仍未匹配的数据分析其题型特征,发现新候选源后扩充数据池,重复 Stage 0-2 直到未匹配率低于 1%。
关键发现:高度同源 + 大规模泄露
ATLAS 最终归因了 1,450,827 条数据,超过 99.7% 可追溯到仅 20 个原子源。核心发现:
来源集中度极高。NuminaMath-CoT、DeepScaleR、GSM8K 等少数上游源贡献了绝大多数数据。Eurus-2-RL-Data 贡献突出——它把 NuminaMath-CoT 的 MCQ 题系统地转换为开放式推理格式,证明有效后被大量后续数据集继承。
Benchmark 泄露严重。百万级两两相似度匹配发现 36,148 条泄露实例(相似度 ≥ 90%)。有些数据集(OmniMath、HARP)直接把评测题放进训练集;更多泄露通过格式变换(MCQ→填空)或轻微改写来伪装。
SCA:源级反事实归因
知道了数据从哪来,怎么评估哪些数据真正有用?ATLAS 提出 SCA(Source-level Counterfactual Attribution):
对每个原子源 s,从同一基础模型 θ₀ 出发单独训练一个 RL 检查点 θₛ。用 (θ₀, θₛ) 在源内每条数据上的正确/错误行为差异,将数据分为四类:
| 类别 | θ₀ | θₛ | 含义 |
|---|---|---|---|
| 00 | ✗ | ✗ | 不可解——太难的题 |
| 01 | ✗ | ✓ | 真正可学会——RL 训练的核心价值 |
| 10 | ✓ | ✗ | 退化——训练反而弄丢了能力 |
| 11 | ✓ | ✓ | 太简单——基础模型就会 |
加权求和得到数据集的 learnability 分数 L_SCA。类别 01(真正学会的)权重最高,10(退化)权重最低甚至为负。
复合质量分数 Q
Q 综合三个维度预测 RLVR 训练效果:
S₁ 静态质量:可验证性(答案是否一致)、learnability(SCA 分数)、无泄露程度(已确认泄露数据比例)。
S₂ 采样效率增益:Mean@N 的提升幅度,结合 SCA learnability 做尺度自适应插值。
S₃ 能力边界扩展:Pass@N 的提升幅度,衡量模型能力天花板是否被推高。
实验:DAPO++ 全面领先
在 Qwen3-1.7B 和 Qwen3-8B 上,用 GRPO 训练,对比 5 个代表数据集的去污染版本 + DAPO++:
| 数据集 | Qwen3-1.7B Avg* | Qwen3-8B Avg* |
|---|---|---|
| OpenR1-Math-220k | 14.0 | 25.0 |
| Skywork-OR1-RL-Data | 15.1 | 25.1 |
| DeepMath-103K | 15.4 | 25.1 |
| DAPO-Math-17k | 15.0 | 29.3 |
| DeepScaleR | 14.7 | 26.1 |
| DAPO++(ours) | 15.7 | 29.6 |
Avg* = 8 个数学推理 benchmark 的平均分(排除 Math-500 作为验证集)。Q 分数与 8B 性能的 Spearman 相关性 ρ = 0.94。
关键发现:
去污染不降反升。移除泄露数据后 AIME 等难题 benchmark 分数反而提升,说明泄露数据含高噪声、低 learnability 信号。数据集上的性能提升可能部分来自"记住评测题"而非真正的推理能力。
MCQ → 开放式有收益。将 MCQ 数据转为开放式问答一致提升了性能,验证了高可验证性的重要性。
小模型区分度低。1.7B 上各数据集差距小(std=0.59),8B 上差距明显(std=2.17),说明数据质量在更大模型上更关键。
局限性与工程启示
ATLAS 的溯源过程仍依赖大量人工审核,对非数学领域的迁移尚未验证。20 个原子源的结论局限于数学 RLVR 场景,但方法论可以推广。
对工程实践的启示很明确:选数据比堆数据重要。在 RLVR 训练中,数据来源的透明度、learnability 信号的密度、以及训练集与评测集的干净隔离,比单纯增加数据量更有效。DAPO++ 用 17K 条精选数据跑赢了几十万的 DeepScaleR,就是最好的例证。
总结
ATLAS 是 RLVR 数据集生态的一份"审计报告"——它用系统化的溯源揭示了看似繁荣的数据集生态背后的同源化、泄露、和低效。SCA 归因和 Q 评分则提供了可操作的数据质量评估工具。DAPO++ 证明了这些洞察可以转化为真实的性能提升。
如果说 2025 年是 RLVR 数据集的"圈地运动",ATLAS 则是第一张精确的地籍图。下一步应该是基于这张图,系统性地开拓真正未覆盖的数据源。