Back to Blog Untitled

Untitled

Paper

核心洞察:主流 RLVR 数据集看似百花齐放,实则高度同源。145 万条训练数据中 99.7% 来自仅 20 个原子源头,36,148 条直接泄露了评测题。用归因洞察指导数据选择,可以构造出全面领先的 DAPO++。

TL;DR

RLVR(Reinforcement Learning from Verifiable Rewards)在 2025 年迎来数据集井喷,但数据来源不透明、评测泄露严重的问题被严重低估。ATLAS 提出系统化的原子源追踪框架,将 1.45M 条 RLVR 数据归因到 20 个原子源,并发现大规模 benchmark 泄露。在此基础上提出 SCA 归因方法和复合质量分数 Q,指导构造了 DAPO++ 数据集,在 Qwen3 系列上两个规模均全面领先。

背景:RLVR 数据集的"公地悲剧"

2025 年以来,RLVR 成为数学推理能力训练的主流范式。DeepScaleR、OpenR1-Math、DAPO-Math、Skywork-OR1、Still-3-RL 等十几个数据集密集发布,各自声称效果优异。但这些数据集之间存在大量重叠却无人量化;许多数据集(所谓"openly-closed")公开可用但来源不明;更严重的是,部分评测 benchmark 本身被直接纳入了训练数据。

这些问题的根源是缺乏系统化的数据溯源工具。ATLAS 就是为此而生。

ATLAS:四阶段原子源追踪框架

ATLAS 的设计很工程化,分四个阶段递进:

Stage 0 — 数据收集与规范化:收集所有主流 RLVR 数据集及其上下游数据,手动审查每条数据的 prompt-answer 结构,统一格式。由于各数据集 schema 差异巨大(MCQ vs 填空 vs 证明题、多种指令格式混杂),这一步需要大量人工。

Stage 1 — 时间索引哈希匹配:对每条 prompt 计算 SHA-1 哈希,按时间顺序建立全局血缘字典。精确匹配效率高,覆盖了大量直接复制的数据。

Stage 2 — 语义相似度匹配:对 Stage 1 未匹配的数据用 Sentence-BERT 编码,通过余弦相似度检索候选匹配,再逐条人工审核确认。

Stage 3 — 迭代源恢复:对仍未匹配的数据分析其题型特征,发现新候选源后扩充数据池,重复 Stage 0-2 直到未匹配率低于 1%。

Figure 1: RLVR 数据集发布时间线
图1:RLVR 数据集发布时间线。2025 年以来快速增长,多数数据集"公开但来源不透明"(openly-closed)。

关键发现:高度同源 + 大规模泄露

ATLAS 最终归因了 1,450,827 条数据,超过 99.7% 可追溯到仅 20 个原子源。核心发现:

Figure 3: 各数据集的原子源构成比例
图3:各 RLVR 数据集的原子源构成。颜色编码代表不同题型类别(竞赛、中学数学、综合数学、合成数据等),可见高度重叠。

来源集中度极高。NuminaMath-CoT、DeepScaleR、GSM8K 等少数上游源贡献了绝大多数数据。Eurus-2-RL-Data 贡献突出——它把 NuminaMath-CoT 的 MCQ 题系统地转换为开放式推理格式,证明有效后被大量后续数据集继承。

Benchmark 泄露严重。百万级两两相似度匹配发现 36,148 条泄露实例(相似度 ≥ 90%)。有些数据集(OmniMath、HARP)直接把评测题放进训练集;更多泄露通过格式变换(MCQ→填空)或轻微改写来伪装。

Figure 4: 各数据集的泄露严重程度
图4:各 RLVR 数据集与评测 benchmark 的泄露严重程度。柱状图表示相似度 ≥ 90% 的匹配数量。

SCA:源级反事实归因

知道了数据从哪来,怎么评估哪些数据真正有用?ATLAS 提出 SCA(Source-level Counterfactual Attribution):

对每个原子源 s,从同一基础模型 θ₀ 出发单独训练一个 RL 检查点 θₛ。用 (θ₀, θₛ) 在源内每条数据上的正确/错误行为差异,将数据分为四类:

类别θ₀θₛ含义
00不可解——太难的题
01真正可学会——RL 训练的核心价值
10退化——训练反而弄丢了能力
11太简单——基础模型就会

加权求和得到数据集的 learnability 分数 L_SCA。类别 01(真正学会的)权重最高,10(退化)权重最低甚至为负。

复合质量分数 Q

Q 综合三个维度预测 RLVR 训练效果:

S₁ 静态质量:可验证性(答案是否一致)、learnability(SCA 分数)、无泄露程度(已确认泄露数据比例)。

S₂ 采样效率增益:Mean@N 的提升幅度,结合 SCA learnability 做尺度自适应插值。

S₃ 能力边界扩展:Pass@N 的提升幅度,衡量模型能力天花板是否被推高。

Figure 2: 框架总览 — 数据溯源 + 归因 + 评分
图2:ATLAS + SCA + Q 的完整框架。左侧为数据溯源分析,右侧为数据集质量评分体系。

实验:DAPO++ 全面领先

在 Qwen3-1.7B 和 Qwen3-8B 上,用 GRPO 训练,对比 5 个代表数据集的去污染版本 + DAPO++:

数据集Qwen3-1.7B Avg*Qwen3-8B Avg*
OpenR1-Math-220k14.025.0
Skywork-OR1-RL-Data15.125.1
DeepMath-103K15.425.1
DAPO-Math-17k15.029.3
DeepScaleR14.726.1
DAPO++(ours)15.729.6

Avg* = 8 个数学推理 benchmark 的平均分(排除 Math-500 作为验证集)。Q 分数与 8B 性能的 Spearman 相关性 ρ = 0.94。

关键发现:

去污染不降反升。移除泄露数据后 AIME 等难题 benchmark 分数反而提升,说明泄露数据含高噪声、低 learnability 信号。数据集上的性能提升可能部分来自"记住评测题"而非真正的推理能力。

MCQ → 开放式有收益。将 MCQ 数据转为开放式问答一致提升了性能,验证了高可验证性的重要性。

小模型区分度低。1.7B 上各数据集差距小(std=0.59),8B 上差距明显(std=2.17),说明数据质量在更大模型上更关键。

局限性与工程启示

ATLAS 的溯源过程仍依赖大量人工审核,对非数学领域的迁移尚未验证。20 个原子源的结论局限于数学 RLVR 场景,但方法论可以推广。

对工程实践的启示很明确:选数据比堆数据重要。在 RLVR 训练中,数据来源的透明度、learnability 信号的密度、以及训练集与评测集的干净隔离,比单纯增加数据量更有效。DAPO++ 用 17K 条精选数据跑赢了几十万的 DeepScaleR,就是最好的例证。

总结

ATLAS 是 RLVR 数据集生态的一份"审计报告"——它用系统化的溯源揭示了看似繁荣的数据集生态背后的同源化、泄露、和低效。SCA 归因和 Q 评分则提供了可操作的数据质量评估工具。DAPO++ 证明了这些洞察可以转化为真实的性能提升。

如果说 2025 年是 RLVR 数据集的"圈地运动",ATLAS 则是第一张精确的地籍图。下一步应该是基于这张图,系统性地开拓真正未覆盖的数据源。

Tags: #北京大学 × 腾讯