Thoughts, insights, and updates from the PaperDog team
113 页综述,提出 GRO(生成-奖励-优化)统一框架覆盖从 STaR 到 Gödel Machine 的全谱系。五阶段闭环(数据获取→筛选→优化→推理精炼→自主评估)+ 六种结构性失败模式(数据自噬、reward hacking 等)。核心判断:自改进的未来在系统层面的闭环设计,而非模型层面的技...
Read More权重流形假说 + 映射定理严格证明:仅训练一个千维潜向量即可生成完整网络权重,实现 200-500× 参数压缩。四项 Mapping Loss 分别对应定理假设,消融验证缺一不可。微调场景落地点最快——1024 参数适配 ResNet50 超越 17M 全参数微调。...
Read MoreAND-OR DAG 证明图架构,把通用 LLM 在形式化定理证明上的解决率从不到 10% 提升到 70%。Putnam 2025 全对(12/12),超越金牌级 IMO 专用系统 Aristotle。核心设计:引理记忆化 + 前瞻性规划 + LLM Reviewer 作搜索过滤器。...
Read More学术论文把分支迭代的探索过程压缩成线性叙事,丢掉大量沿途发现。ARA 协议用四层机器可执行研究包替代叙事论文,理解准确率 72.4% → 93.7%。最深刻的发现:结构化知识对弱 Agent 是助力,对强 Agent 可能变成约束。...
Read MoreMuon 比 Adam 快 2 倍的原因:不是梯度对齐更好,而是谱归一化更新方向有更低的 Normalized Directional Sharpness (NDS),每步曲率代价更小。数据越不平衡、训练越到后期,优势越明显。...
Read MoreMatt Van Horn 从"高中后再没交付过有价值的东西"到多个万 star 项目贡献者,靠的不是更努力写代码,而是彻底改变和计算资源的关系。Plan First 翻转 80/20、双层规划破解模型偷懒、多 Tab 并行人变调度员——一整套正在形成的 Agentic 工程方法论。...
Read More自注意力在序列维度自由选择信息,但在深度维度只是残差累加。Depth-Attention 在注意力模块内部增加"沿深度方向的注意力",让每层从前面的层选择性复用 value——零参数、零额外 KV cache、不到 0.01% 额外 FLOPs,1.5B/3B Qwen3 风格解码器全面最优。...
Read More裸 Claude 回答数据分析问题准确率仅 21%,加上 skill 稳定 95%+,不维护一个月掉回 65%。四层架构(Data Foundations → Sources of Truth → Skills → Validation),精加工知识而非原始检索,LLM 自动生成元数据定义"净效果为...
Read MoreAnthropic 首次披露内部数据:80%+ 代码由 Claude 编写,工程师代码产出是 2024 年的 8 倍,Claude 单次提交 800+ 修复将 API 错误降低 1000 倍。反馈循环已启动——每次 Claude 升级都加速下一个版本的构建。研究判断力是通向完整递归自我改进的关键鸿沟...
Read More将静态短卷积替换为输入依赖的动态卷积,150M-2B 模型上 1.33-1.60× 计算优势,端到端训练仅 +8% 开销。泛化至 MoE、Mamba-2、Gated DeltaNet。思路简单、收益显著——几乎无脑可加的架构改进。...
Read MoreAnthropic 审查 832 个恶意账户,映射到 MITRE ATT&CK 框架。三大发现:攻击重心从钓鱼向后渗透转移、传统威胁评估体系因 AI 而失效、编排架构成为高危攻击者唯一持久区分信号。...
Read More大模型不是"更聪明"——而是参数多到高频任务的梯度变得极微弱,不再覆盖稀有任务缓慢积累的特征。用 OLMo 4M–4B 实验验证:1B 模型对非任务 token 的梯度干扰仅 7.58×10⁻⁵,20M 模型高达 0.10。数据中心化:提高数据频率可能比盲目扩大模型更有效。...
Read More在冻结 LLM 旁维护 8×8 在线关联记忆矩阵,通过 delta-rule 持续更新,读取向量直接注入 attention 生成低秩修正。MemoryAgentBench +31%,移除全部上下文后仅凭 64 元素矩阵仍能恢复关键推理链。...
Read MoreVideo-o3 给视频 MLLM 装上"主动寻线索"能力——迭代调用 VideoCrop 精查关键片段,攒够证据再下结论。7B 模型在 MLVU 72.1%、Video-Holmes 46.5% 刷 SOTA。...
Read More序列轴混合:tied K/V 投影共享 90%+ 参数,一套表示同时更新 KV cache 和 RNN state,序列内动态切换 attention 和 linear RNN。linear prefill + attention generation 即追平 Transformer 检索,算力省得...
Read MoreMeta 提出将 LLM 预训练从离散 token prediction 换成连续潜变量预测——autoencoder 先压缩 token 到 latent,模型预测 latent 向量而非 next token。推理速度提升 2.7×,质量持平甚至超越,语义等价性大幅增强。...
Read More第一个在同一个闭环中同时更新 scaffold 和模型权重的系统。Feedback-Agent 运行时动态选择 RL 算法,三个跨域实验一致证明 harness 与权重更新增益不互相饱和。...
Read MoreDeepMind 的自改进代码优化器:给定一个评分函数,模型在三个阶段(种群采样→自我评估→自我优化)中迭代生成、评分、改进代码,无需外部 solver。3× 计算量即可达到 2× 最终性能,且跨模型泛化。...
Read MoreNVIDIA NeMo 团队的 rollout 框架:在 LLM API 边界架代理捕获 token 级交互,把任意 agent harness 当黑盒做 scalable RL。Qwen3.5-4B + GRPO 在 Codex harness 上 SWE-Bench Verified 从 3.8...
Read MoreLeCun 团队用 Hermite 多项式谱分解证明:LeJEPA 在高斯潜变量下必然线性恢复 World Model(h(z)=Qz),且高斯是唯一满足此条件的分布。反转了经典 ICA 的结论——Gaussian 的旋转不变性从 bug 变成 feature。四个定理递进,Lean 4 形式化验证...
Read More残差连接天然等价于扩散去噪的欧拉离散化——利用这一等价关系,把网络拆成独立块训练,显存降 B 倍,效果和端到端训练几乎一样。五种架构验证通过,包括非扩散原生的自回归模型。...
Read More给 RLVR 数据集做家谱:1.45M 条训练数据 90%+ 来自 20 个原子源,3.6 万条 benchmark 泄露。提出 SCA 源级归因和 Q 质量评分,用洞察打磨出 DAPO++ 数据集,两个规模上全面第一。...
Read MoreSSM-Attention 混合模型在深度推理上失败的原因不是记忆容量不足,而是巩固已驱逐上下文的计算量不够。解决方案:让模型在清除 KV cache 之前用循环前向传播反复精炼快速权重,推理延迟不变,睡得越久推理越深。...
Read MoreAnthropic 用 Claude Mythos Preview 联合 50 家合作伙伴,一个月发现超过 10,000 个高危漏洞。网络安全进步的瓶颈已从"发现"变为"修补"——传统 90 天披露窗口和志愿者驱动的补丁流程已不够用。...
Read More检索基础设施不该是静态的。把 BM25 权重、融合模式、上下文预算等十几个旋钮暴露为动作空间,LLM 读失败日志→诊断根因→提案调参→守卫回退的四步循环自动进化,从 F1 30.5% 七轮跑到 54.3%。...
Read More五大机制(多Agent辩论、Pivot/Refine自修复、可验证结果报告、七档人机协作、跨Run进化)驱动的23阶段自主科研流水线。ARC-Bench上比AI Scientist v2高54.7%。...
Read MoreLLM + Lean 编译器验证的 agentic loop 自动解决 9/353 Erdős 问题(含 56 年悬而未决难题)和 44 个 OEIS 猜想。最意外发现:最基础的 LLM+编译器循环就解决了全部成功案例,进化搜索反是锦上添花。...
Read More把 skill 文档当成 frozen agent 的外部权重,用训练的纪律来优化。52/52 全胜,skill 可跨模型跨环境迁移。...
Read More知识蒸馏的黄金法则被推翻:弱老师也能教出好学生,强老师反而可能让蒸馏收益饱和甚至逆转。蒸馏的真正价值在泛化而非拟合。...
Read More给递归推理模型加噪声、跑 K 条并行轨迹、用 Q 头选最优——不重训练、不增数据,7M 参数成本 $0.001,PPBench 准确率 91.2%(Claude Opus 4 仅 34.7%)。推理瓶颈在探索能力,不在模型容量。...
Read More将递归推理从确定性变成概率性:高层随机探索 + 低层确定性精炼,支持宽度式推理扩展。Sudoku 97%、N-Queens 覆盖率 90.3%,20 条并行轨迹超越所有确定性模型 320 步迭代。...
Read More分层递归架构替代标准 Transformer,配合 task-completion 目标和 PrefixLM attention,40B token 从零训练 1B 模型,计算效率比 Llama/Qwen/Gemma 高 96-432 倍。$1,500 预算让任何实验室都能做预训练研究。...
Read More600元树莓派 + 开源 nanobot,挂两个飞书AI助手(熊大&熊二),三个月自动出19期论文播客、近百篇论文解读、A股日报、美股模拟交易——每月电费1块8,API费用50块。一套普通人也能复制的7×24小时AI方案。...
Read More三个简洁改进——多层特征聚合、保留 REPA、REPA head 免费做 guidance——实现比原版 RAE 快 10 倍收敛,80 epoch 达到 gFID 1.06,并在文生图和导航世界模型上一致验证有效。...
Read More用独立小模型当「记忆」,主模型完全不动参数。训练时消化语料,推理时多轮对话提问——RAG、微调、latent memory 之外的第四条路。...
Read More用 AI Agent 自动完成神经网络架构搜索。AIRA-Compose 通过组合现有模块进行设计,AIRA-Design 则从零开始构造全新架构——无需人工设计经验,端到端自动化。...
Read MoreOpinion-Driven Policy Distillation 提出了一种比传统 RL 更高效的方法论。核心洞察是"预见性"——Agent 能够预判决策后果,从而跳过大量试错。...
Read More来自 Claude 官方频道的完整教程系列:从安装到 MCP 集成、Hooks 钩子,覆盖 Agentic Loop、CLAUDE.md、Explore→Plan→Code→Commit 工作流、上下文管理等核心概念。...
Read More探索 LLM 持续更新中一个反直觉现象:即使是正确的、有用的记忆,在模型更新后也可能变得不可靠。对持续学习系统的记忆管理提出警示。...
Read More挑战"语言是推理必需载体"的假设,证明纯视觉规划可以完成复杂推理任务,且在某些场景下优于语言链式推理。...
Read More