LLM 自改进全景:从数据飞轮到自我修改代码的完整生命期

Paper
June 11, 2026

113 页综述,提出 GRO(生成-奖励-优化)统一框架覆盖从 STaR 到 Gödel Machine 的全谱系。五阶段闭环(数据获取→筛选→优化→推理精炼→自主评估)+ 六种结构性失败模式(数据自噬、reward hacking 等)。核心判断:自改进的未来在系统层面的闭环设计,而非模型层面的技...

#综述#自改进#LLM#GRO框架#Stony Brook
Read More
Mapping Networks:用低维潜变量替代高维权重空间

Mapping Networks:用低维潜变量替代高维权重空间

Paper
June 11, 2026

权重流形假说 + 映射定理严格证明:仅训练一个千维潜向量即可生成完整网络权重,实现 200-500× 参数压缩。四项 Mapping Loss 分别对应定理假设,消融验证缺一不可。微调场景落地点最快——1024 参数适配 ResNet50 超越 17M 全参数微调。...

#权重压缩#流形学习#NIT Rourkela
Read More

LEAP:用 Agentic 框架让通用大模型在形式化数学上达到 SOTA

Paper
June 10, 2026

AND-OR DAG 证明图架构,把通用 LLM 在形式化定理证明上的解决率从不到 10% 提升到 70%。Putnam 2025 全对(12/12),超越金牌级 IMO 专用系统 Aristotle。核心设计:引理记忆化 + 前瞻性规划 + LLM Reviewer 作搜索过滤器。...

#Agent 系统#形式化定理证明#Google DeepMind
Read More
最后一篇人类写的论文:Agent-Native Research Artifact

最后一篇人类写的论文:Agent-Native Research Artifact

Paper
June 9, 2026

学术论文把分支迭代的探索过程压缩成线性叙事,丢掉大量沿途发现。ARA 协议用四层机器可执行研究包替代叙事论文,理解准确率 72.4% → 93.7%。最深刻的发现:结构化知识对弱 Agent 是助力,对强 Agent 可能变成约束。...

#Agent 系统#科研基础设施#Stanford · Michigan · CMU
Read More
Why Muon Outperforms Adam: A Curvature Perspective

Why Muon Outperforms Adam: A Curvature Perspective

Paper
June 9, 2026

Muon 比 Adam 快 2 倍的原因:不是梯度对齐更好,而是谱归一化更新方向有更低的 Normalized Directional Sharpness (NDS),每步曲率代价更小。数据越不平衡、训练越到后期,优势越明显。...

#优化器#NDS#曲率分析#LLM 预训练
Read More

一个工程师的 Agentic Engineering 全部家底

Blog
June 7, 2026

Matt Van Horn 从"高中后再没交付过有价值的东西"到多个万 star 项目贡献者,靠的不是更努力写代码,而是彻底改变和计算资源的关系。Plan First 翻转 80/20、双层规划破解模型偷懒、多 Tab 并行人变调度员——一整套正在形成的 Agentic 工程方法论。...

#工程实践#Agentic Engineering#Claude Code#Plan First#Agent 调度
Read More

Depth-Attention:让 Transformer 在深度维度上也学会"选择性注意力"

Paper
June 6, 2026

自注意力在序列维度自由选择信息,但在深度维度只是残差累加。Depth-Attention 在注意力模块内部增加"沿深度方向的注意力",让每层从前面的层选择性复用 value——零参数、零额外 KV cache、不到 0.01% 额外 FLOPs,1.5B/3B Qwen3 风格解码器全面最优。...

#Transformer#跨层信息流#KV Cache#GQA
Read More

Anthropic 用 Claude 做自助数据分析的完整工程体系

Blog
June 6, 2026

裸 Claude 回答数据分析问题准确率仅 21%,加上 skill 稳定 95%+,不维护一个月掉回 65%。四层架构(Data Foundations → Sources of Truth → Skills → Validation),精加工知识而非原始检索,LLM 自动生成元数据定义"净效果为...

#工程实践#Claude#数据分析#Skill 设计#数据治理
Read More

当 AI 构建自身——Anthropic 递归自我改进进展报告

Paper
June 5, 2026

Anthropic 首次披露内部数据:80%+ 代码由 Claude 编写,工程师代码产出是 2024 年的 8 倍,Claude 单次提交 800+ 修复将 API 错误降低 1000 倍。反馈循环已启动——每次 Claude 升级都加速下一个版本的构建。研究判断力是通向完整递归自我改进的关键鸿沟...

#递归自我改进#AI 自主开发#Anthropic Institute
Read More

动态短卷积:给 Transformer 加一个"会看情况的"局部感受野

Paper
June 4, 2026

将静态短卷积替换为输入依赖的动态卷积,150M-2B 模型上 1.33-1.60× 计算优势,端到端训练仅 +8% 开销。泛化至 MoE、Mamba-2、Gated DeltaNet。思路简单、收益显著——几乎无脑可加的架构改进。...

#Transformer#动态卷积#MIT · MIT-IBM Watson AI Lab
Read More

AI 攻击者画像:832 个恶意账户揭示的三个关键趋势

Blog
June 4, 2026

Anthropic 审查 832 个恶意账户,映射到 MITRE ATT&CK 框架。三大发现:攻击重心从钓鱼向后渗透转移、传统威胁评估体系因 AI 而失效、编排架构成为高危攻击者唯一持久区分信号。...

#安全#网络安全#MITRE ATT&CK#威胁情报
Read More

为什么大模型能学会小模型学不会的东西?——梯度干扰与稀有任务的留存

Paper
June 3, 2026

大模型不是"更聪明"——而是参数多到高频任务的梯度变得极微弱,不再覆盖稀有任务缓慢积累的特征。用 OLMo 4M–4B 实验验证:1B 模型对非任务 token 的梯度干扰仅 7.58×10⁻⁵,20M 模型高达 0.10。数据中心化:提高数据频率可能比盲目扩大模型更有效。...

#Scaling Law#梯度干扰#Stanford · Harvard · MIT · Anthropic
Read More
δ-mem:用 8×8 矩阵给冻结 LLM 加上在线记忆

δ-mem:用 8×8 矩阵给冻结 LLM 加上在线记忆

Paper
June 2, 2026

在冻结 LLM 旁维护 8×8 在线关联记忆矩阵,通过 delta-rule 持续更新,读取向量直接注入 attention 生成低秩修正。MemoryAgentBench +31%,移除全部上下文后仅凭 64 元素矩阵仍能恢复关键推理链。...

#Agent Memory#Delta-Rule Learning#NTU · 复旦 · 交大
Read More
Video-o3:让视频理解模型学会

Video-o3:让视频理解模型学会"主动找线索"

Paper
June 1, 2026

Video-o3 给视频 MLLM 装上"主动寻线索"能力——迭代调用 VideoCrop 精查关键片段,攒够证据再下结论。7B 模型在 MLVU 72.1%、Video-Holmes 46.5% 刷 SOTA。...

#视频理解#Agent#多跳推理#ICML 2026
Read More
Oryx:在序列维度上自由切换 Attention 和线性循环

Oryx:在序列维度上自由切换 Attention 和线性循环

Paper
May 30, 2026

序列轴混合:tied K/V 投影共享 90%+ 参数,一套表示同时更新 KV cache 和 RNN state,序列内动态切换 attention 和 linear RNN。linear prefill + attention generation 即追平 Transformer 检索,算力省得...

#Hybrid Architecture#Mamba-2#Gated DeltaNet#Google Research
Read More
Latent Prediction:LLM 的下一个范式?把 Token Prediction 换成潜变量预测

Latent Prediction:LLM 的下一个范式?把 Token Prediction 换成潜变量预测

Paper
May 30, 2026

Meta 提出将 LLM 预训练从离散 token prediction 换成连续潜变量预测——autoencoder 先压缩 token 到 latent,模型预测 latent 向量而非 next token。推理速度提升 2.7×,质量持平甚至超越,语义等价性大幅增强。...

#Pre-training Paradigm#Latent Space#Meta
Read More
SIA:同时拧两颗螺丝的自改进 AI

SIA:同时拧两颗螺丝的自改进 AI

Paper
May 30, 2026

第一个在同一个闭环中同时更新 scaffold 和模型权重的系统。Feedback-Agent 运行时动态选择 RL 算法,三个跨域实验一致证明 harness 与权重更新增益不互相饱和。...

#Self-Improving#Test-Time Training#Harness#Hexo Labs
Read More
BES:给大模型一杆秤,它就能自己改代码

BES:给大模型一杆秤,它就能自己改代码

Paper
May 30, 2026

DeepMind 的自改进代码优化器:给定一个评分函数,模型在三个阶段(种群采样→自我评估→自我优化)中迭代生成、评分、改进代码,无需外部 solver。3× 计算量即可达到 2× 最终性能,且跨模型泛化。...

#Self-Improving#Self-Play#迭代优化#Google DeepMind
Read More
Polar:把任意 Agent 框架变成 RL 环境的黑盒方案

Polar:把任意 Agent 框架变成 RL 环境的黑盒方案

Paper
May 29, 2026

NVIDIA NeMo 团队的 rollout 框架:在 LLM API 边界架代理捕获 token 级交互,把任意 agent harness 当黑盒做 scalable RL。Qwen3.5-4B + GRPO 在 Codex harness 上 SWE-Bench Verified 从 3.8...

#Agentic RL#NVIDIA#Rollout框架
Read More
LeJEPA 何时学到 World Model?JEPAs 的首个线性可辨识性理论

LeJEPA 何时学到 World Model?JEPAs 的首个线性可辨识性理论

Paper
May 29, 2026

LeCun 团队用 Hermite 多项式谱分解证明:LeJEPA 在高斯潜变量下必然线性恢复 World Model(h(z)=Qz),且高斯是唯一满足此条件的分布。反转了经典 ICA 的结论——Gaussian 的旋转不变性从 bug 变成 feature。四个定理递进,Lean 4 形式化验证...

#World Model#JEPA#LeCun#可辨识性
Read More

DiffusionBlocks:残差连接就是扩散步,反向传播从此可选

Paper
May 28, 2026

残差连接天然等价于扩散去噪的欧拉离散化——利用这一等价关系,把网络拆成独立块训练,显存降 B 倍,效果和端到端训练几乎一样。五种架构验证通过,包括非扩散原生的自回归模型。...

#扩散模型#逐块训练#Sakana AI
Read More

RLVR 数据集的家谱:ATLAS 追踪 145 万条数据回到 20 个原子源头

Paper
May 27, 2026

给 RLVR 数据集做家谱:1.45M 条训练数据 90%+ 来自 20 个原子源,3.6 万条 benchmark 泄露。提出 SCA 源级归因和 Q 质量评分,用洞察打磨出 DAPO++ 数据集,两个规模上全面第一。...

#RLVR#数据溯源#北京大学
Read More

Language Models Need Sleep:让模型睡一觉再做推理

Paper
May 25, 2026

SSM-Attention 混合模型在深度推理上失败的原因不是记忆容量不足,而是巩固已驱逐上下文的计算量不够。解决方案:让模型在清除 KV cache 之前用循环前向传播反复精炼快速权重,推理延迟不变,睡得越久推理越深。...

#SSM#记忆巩固#深度推理
Read More

Project Glasswing 首月战报:AI 漏洞挖掘速度已超越人类修补速度

Paper
May 24, 2026

Anthropic 用 Claude Mythos Preview 联合 50 家合作伙伴,一个月发现超过 10,000 个高危漏洞。网络安全进步的瓶颈已从"发现"变为"修补"——传统 90 天披露窗口和志愿者驱动的补丁流程已不够用。...

#AI 安全#漏洞挖掘#Anthropic
Read More

EvolveMem:让记忆系统的"检索引擎"自己进化

Paper
May 24, 2026

检索基础设施不该是静态的。把 BM25 权重、融合模式、上下文预算等十几个旋钮暴露为动作空间,LLM 读失败日志→诊断根因→提案调参→守卫回退的四步循环自动进化,从 F1 30.5% 七轮跑到 54.3%。...

#Memory#Agent#AutoResearch
Read More

AutoResearchClaw:让AI科研系统学会从失败中爬起来

Paper
May 23, 2026

五大机制(多Agent辩论、Pivot/Refine自修复、可验证结果报告、七档人机协作、跨Run进化)驱动的23阶段自主科研流水线。ARC-Bench上比AI Scientist v2高54.7%。...

#多Agent#自修复执行#自主科研
Read More

AlphaProof Nexus:AI 自动解决 9 个 Erdős 开放问题

Paper
May 23, 2026

LLM + Lean 编译器验证的 agentic loop 自动解决 9/353 Erdős 问题(含 56 年悬而未决难题)和 44 个 OEIS 猜想。最意外发现:最基础的 LLM+编译器循环就解决了全部成功案例,进化搜索反是锦上添花。...

#形式化证明#Agent#DeepMind
Read More

SkillOpt:把 Agent Skill 当成可训练的外部权重来优化

Paper
May 22, 2026

把 skill 文档当成 frozen agent 的外部权重,用训练的纪律来优化。52/52 全胜,skill 可跨模型跨环境迁移。...

#Agent#Skill 优化#微软
Read More

强老师不是必需品?LLM 预训练蒸馏的常识颠覆

Paper
May 22, 2026

知识蒸馏的黄金法则被推翻:弱老师也能教出好学生,强老师反而可能让蒸馏收益饱和甚至逆转。蒸馏的真正价值在泛化而非拟合。...

#知识蒸馏#预训练#泛化
Read More

PTRM:7M 参数干翻 Claude-4,噪声解锁推理潜能

Paper
May 22, 2026

给递归推理模型加噪声、跑 K 条并行轨迹、用 Q 头选最优——不重训练、不增数据,7M 参数成本 $0.001,PPBench 准确率 91.2%(Claude Opus 4 仅 34.7%)。推理瓶颈在探索能力,不在模型容量。...

#递归推理#测试时计算#TRM
Read More

GRAM:生成式递归推理,让神经网络学会"发散思维"

Paper
May 22, 2026

将递归推理从确定性变成概率性:高层随机探索 + 低层确定性精炼,支持宽度式推理扩展。Sudoku 97%、N-Queens 覆盖率 90.3%,20 条并行轨迹超越所有确定性模型 320 步迭代。...

#递归推理#变分推理#多轨迹
Read More

HRM-Text:40B token + $1500 训练出打平 2-7B 的 1B 模型

Paper
May 22, 2026

分层递归架构替代标准 Transformer,配合 task-completion 目标和 PrefixLM attention,40B token 从零训练 1B 模型,计算效率比 Llama/Qwen/Gemma 高 96-432 倍。$1,500 预算让任何实验室都能做预训练研究。...

#高效预训练#递归架构#PrefixLM
Read More

用一台树莓派养两只 AI:我跑了三个多月的"家庭 AI 实验室"

Blog
May 22, 2026

600元树莓派 + 开源 nanobot,挂两个飞书AI助手(熊大&熊二),三个月自动出19期论文播客、近百篇论文解读、A股日报、美股模拟交易——每月电费1块8,API费用50块。一套普通人也能复制的7×24小时AI方案。...

#实战#树莓派#nanobot#AI Agent
Read More

RAEv2:用预训练视觉编码器替代 VAE 的改进基线

Paper
May 21, 2026

三个简洁改进——多层特征聚合、保留 REPA、REPA head 免费做 guidance——实现比原版 RAE 快 10 倍收敛,80 epoch 达到 gFID 1.06,并在文生图和导航世界模型上一致验证有效。...

#扩散模型#视觉编码器#RAE
Read More

MeMo:把记忆本身变成一个模型

Paper
May 21, 2026

用独立小模型当「记忆」,主模型完全不动参数。训练时消化语料,推理时多轮对话提问——RAG、微调、latent memory 之外的第四条路。...

#LLM#知识集成#Memory
Read More

AI Agent 自动设计神经网络架构:AIRA-Compose 和 AIRA-Design

Paper
May 20, 2026

用 AI Agent 自动完成神经网络架构搜索。AIRA-Compose 通过组合现有模块进行设计,AIRA-Design 则从零开始构造全新架构——无需人工设计经验,端到端自动化。...

#AI Agent#NAS
Read More

OPD 为什么比 RL 快?"预见性"是答案

Paper
May 20, 2026

Opinion-Driven Policy Distillation 提出了一种比传统 RL 更高效的方法论。核心洞察是"预见性"——Agent 能够预判决策后果,从而跳过大量试错。...

#强化学习#优化
Read More

Claude Code 101 系列教程 · 9 课从入门到实战

Tutorial
May 20, 2026

来自 Claude 官方频道的完整教程系列:从安装到 MCP 集成、Hooks 钩子,覆盖 Agentic Loop、CLAUDE.md、Explore→Plan→Code→Commit 工作流、上下文管理等核心概念。...

#9 课#Claude Code#Anthropic 官方
Read More

有用的记忆,在 LLM 持续更新中变得有缺陷

Paper
May 19, 2026

探索 LLM 持续更新中一个反直觉现象:即使是正确的、有用的记忆,在模型更新后也可能变得不可靠。对持续学习系统的记忆管理提出警示。...

#LLM#持续学习#记忆
Read More

Visual Planning:只用图像思考,不用语言推理

Paper
May 18, 2026

挑战"语言是推理必需载体"的假设,证明纯视觉规划可以完成复杂推理任务,且在某些场景下优于语言链式推理。...

#视觉推理#World Model
Read More