2601 online learning 新论文：Learning to Discover at Test Time（TTT-Discover）

Learning to Discover at Test Time https://arxiv.org/pdf/2601.16175

Intro

又是 Sun Yu 大哥的大作，这篇是在现有 thinking model 后面加一个 one-sample RL 的阶段，属于「2601 关于 Online Learning 的思考和推演」里面提到的阶段 2 方案（之前 Sun Yu 几篇 TTT 都是改模型架构的，属于阶段 3 了）

这篇文章 idea 的目标不是得到一个很强的模型本身，而是期待模型在 test time update 的过程中，能产生至少一个 SOTA scientific solution（虽然可能训练到后面得到的模型有可能完全崩坏，丧失泛化能力）

几点 cmts：

1）LoRA 被验证作为 online learning 方案之一，TTT-discover 里面一个任务用了 500$ 的 TML tinker API

2）各家对 online learning 的关注度很高了，整体看没啥预期差。作者 Sun Yu 在 NV、这篇文章里面的 baseline 有 AlphaEvlove（deepmind）和 ALE-Agent（Sakana AI）、deepmind 还有 Titan / Nested Learning 等更 native 的 online learning 方案、还有 Hiverge 这个 startup 也是专门解这类组合优化问题（前 AlphaTensor AlphaEvolve 团队）

3）这篇文章基本把「有明确连续 reward 的组合优化」这类研究任务的 online learning 跑通了。下一步可以扩展的方向：A）明确连续 reward → 离散 / 稀疏 / 主观 reward，B）TTT-discover 目前一个任务需要训一个 LoRA，是否有任务之间融合或泛化的可能性，e.g. 多个任务组合在一起用现在 RLVR 的范式来训，这个会反过来加强现有 pretrain + posttrain 范式下的模型能力

4）进一步落地，可以从算法和验证成本两方面努力：A）算法上努力把「连续 reward 推到稀疏 reward」，进一步提升 efficiency（文中 50 steps * 512 rollouts 等于一个任务还是尝试 25k 次，但很多涉及人的工作环境几乎只能 rollout 1 次）；B）想办法降低 verification cost，比如建立仿真环境或者训练 proxy model，这个可能是 AI4S 团队可以发力的地方，提前准备好受益于 online learning

方案

文章给出的方案，大框架上是一个比较 straightforward 的 one-sample RL

line 5 从 buffer 里面用 reuse 的方案采样一个初始状态，line 678 进行基于这个初始状态的 rollout，line 9 把轨迹加回 buffer 里面，line 10 更新模型参数，文章区别于一般 RL 方案的创新点主要是在 line 5 和 line 10

line 5 用了 PUCT （Polynomial Upper Confidence Trees）状态重用策略