Untitled - PaperDog Blog

核心洞察：主流 RLVR 数据集看似百花齐放，实则高度同源。145 万条训练数据中 99.7% 来自仅 20 个原子源头，36,148 条直接泄露了评测题。用归因洞察指导数据选择，可以构造出全面领先的 DAPO++。

TL;DR

RLVR（Reinforcement Learning from Verifiable Rewards）在 2025 年迎来数据集井喷，但数据来源不透明、评测泄露严重的问题被严重低估。ATLAS 提出系统化的原子源追踪框架，将 1.45M 条 RLVR 数据归因到 20 个原子源，并发现大规模 benchmark 泄露。在此基础上提出 SCA 归因方法和复合质量分数 Q，指导构造了 DAPO++ 数据集，在 Qwen3 系列上两个规模均全面领先。

背景：RLVR 数据集的"公地悲剧"

2025 年以来，RLVR 成为数学推理能力训练的主流范式。DeepScaleR、OpenR1-Math、DAPO-Math、Skywork-OR1、Still-3-RL 等十几个数据集密集发布，各自声称效果优异。但这些数据集之间存在大量重叠却无人量化；许多数据集（所谓"openly-closed"）公开可用但来源不明；更严重的是，部分评测 benchmark 本身被直接纳入了训练数据。

这些问题的根源是缺乏系统化的数据溯源工具。ATLAS 就是为此而生。

ATLAS：四阶段原子源追踪框架

ATLAS 的设计很工程化，分四个阶段递进：

Stage 0 — 数据收集与规范化：收集所有主流 RLVR 数据集及其上下游数据，手动审查每条数据的 prompt-answer 结构，统一格式。由于各数据集 schema 差异巨大（MCQ vs 填空 vs 证明题、多种指令格式混杂），这一步需要大量人工。

Stage 1 — 时间索引哈希匹配：对每条 prompt 计算 SHA-1 哈希，按时间顺序建立全局血缘字典。精确匹配效率高，覆盖了大量直接复制的数据。

Stage 2 — 语义相似度匹配：对 Stage 1 未匹配的数据用 Sentence-BERT 编码，通过余弦相似度检索候选匹配，再逐条人工审核确认。

Stage 3 — 迭代源恢复：对仍未匹配的数据分析其题型特征，发现新候选源后扩充数据池，重复 Stage 0-2 直到未匹配率低于 1%。

图1：RLVR 数据集发布时间线。2025 年以来快速增长，多数数据集"公开但来源不透明"（openly-closed）。

关键发现：高度同源 + 大规模泄露

ATLAS 最终归因了 1,450,827 条数据，超过 99.7% 可追溯到仅 20 个原子源。核心发现：

图3：各 RLVR 数据集的原子源构成。颜色编码代表不同题型类别（竞赛、中学数学、综合数学、合成数据等），可见高度重叠。

来源集中度极高。NuminaMath-CoT、DeepScaleR、GSM8K 等少数上游源贡献了绝大多数数据。Eurus-2-RL-Data 贡献突出——它把 NuminaMath-CoT 的 MCQ 题系统地转换为开放式推理格式，证明有效后被大量后续数据集继承。

Benchmark 泄露严重。百万级两两相似度匹配发现 36,148 条泄露实例（相似度 ≥ 90%）。有些数据集（OmniMath、HARP）直接把评测题放进训练集；更多泄露通过格式变换（MCQ→填空）或轻微改写来伪装。

图4：各 RLVR 数据集与评测 benchmark 的泄露严重程度。柱状图表示相似度 ≥ 90% 的匹配数量。

SCA：源级反事实归因

知道了数据从哪来，怎么评估哪些数据真正有用？ATLAS 提出 SCA（Source-level Counterfactual Attribution）：

对每个原子源 s，从同一基础模型 θ₀ 出发单独训练一个 RL 检查点 θₛ。用 (θ₀, θₛ) 在源内每条数据上的正确/错误行为差异，将数据分为四类：

类别	θ₀	θₛ	含义
00	✗	✗	不可解——太难的题
01	✗	✓	真正可学会——RL 训练的核心价值
10	✓	✗	退化——训练反而弄丢了能力
11	✓	✓	太简单——基础模型就会

加权求和得到数据集的 learnability 分数 L_SCA。类别 01（真正学会的）权重最高，10（退化）权重最低甚至为负。

复合质量分数 Q

Q 综合三个维度预测 RLVR 训练效果：

S₁ 静态质量：可验证性（答案是否一致）、learnability（SCA 分数）、无泄露程度（已确认泄露数据比例）。

S₂ 采样效率增益：Mean@N 的提升幅度，结合 SCA learnability 做尺度自适应插值。

S₃ 能力边界扩展：Pass@N 的提升幅度，衡量模型能力天花板是否被推高。

图2：ATLAS + SCA + Q 的完整框架。左侧为数据溯源分析，右侧为数据集质量评分体系。

实验：DAPO++ 全面领先

在 Qwen3-1.7B 和 Qwen3-8B 上，用 GRPO 训练，对比 5 个代表数据集的去污染版本 + DAPO++：

数据集	Qwen3-1.7B Avg*	Qwen3-8B Avg*
OpenR1-Math-220k	14.0	25.0
Skywork-OR1-RL-Data	15.1	25.1
DeepMath-103K	15.4	25.1
DAPO-Math-17k	15.0	29.3
DeepScaleR	14.7	26.1
DAPO++（ours）	15.7	29.6

Avg* = 8 个数学推理 benchmark 的平均分（排除 Math-500 作为验证集）。Q 分数与 8B 性能的 Spearman 相关性 ρ = 0.94。

关键发现：

去污染不降反升。移除泄露数据后 AIME 等难题 benchmark 分数反而提升，说明泄露数据含高噪声、低 learnability 信号。数据集上的性能提升可能部分来自"记住评测题"而非真正的推理能力。

MCQ → 开放式有收益。将 MCQ 数据转为开放式问答一致提升了性能，验证了高可验证性的重要性。

小模型区分度低。1.7B 上各数据集差距小（std=0.59），8B 上差距明显（std=2.17），说明数据质量在更大模型上更关键。

局限性与工程启示

ATLAS 的溯源过程仍依赖大量人工审核，对非数学领域的迁移尚未验证。20 个原子源的结论局限于数学 RLVR 场景，但方法论可以推广。

对工程实践的启示很明确：选数据比堆数据重要。在 RLVR 训练中，数据来源的透明度、learnability 信号的密度、以及训练集与评测集的干净隔离，比单纯增加数据量更有效。DAPO++ 用 17K 条精选数据跑赢了几十万的 DeepScaleR，就是最好的例证。

总结

ATLAS 是 RLVR 数据集生态的一份"审计报告"——它用系统化的溯源揭示了看似繁荣的数据集生态背后的同源化、泄露、和低效。SCA 归因和 Q 评分则提供了可操作的数据质量评估工具。DAPO++ 证明了这些洞察可以转化为真实的性能提升。

如果说 2025 年是 RLVR 数据集的"圈地运动"，ATLAS 则是第一张精确的地籍图。下一步应该是基于这张图，系统性地开拓真正未覆盖的数据源。