Learning to Discover at Test Time https://arxiv.org/pdf/2601.16175

Intro

又是 Sun Yu 大哥的大作,这篇是在现有 thinking model 后面加一个 one-sample RL 的阶段,属于「2601 关于 Online Learning 的思考和推演」里面提到的阶段 2 方案(之前 Sun Yu 几篇 TTT 都是改模型架构的,属于阶段 3 了)

这篇文章 idea 的目标不是得到一个很强的模型本身,而是期待模型在 test time update 的过程中,能产生至少一个 SOTA scientific solution(虽然可能训练到后面得到的模型有可能完全崩坏,丧失泛化能力)

几点 cmts:

1)LoRA 被验证作为 online learning 方案之一,TTT-discover 里面一个任务用了 500$ 的 TML tinker API

2)各家对 online learning 的关注度很高了,整体看没啥预期差。作者 Sun Yu 在 NV、这篇文章里面的 baseline 有 AlphaEvlove(deepmind)和 ALE-Agent(Sakana AI)、deepmind 还有 Titan / Nested Learning 等更 native 的 online learning 方案、还有 Hiverge 这个 startup 也是专门解这类组合优化问题(前 AlphaTensor AlphaEvolve 团队)

3)这篇文章基本把「有明确连续 reward 的组合优化」这类研究任务的 online learning 跑通了。 下一步可以扩展的方向:A)明确连续 reward → 离散 / 稀疏 / 主观 reward,B)TTT-discover 目前一个任务需要训一个 LoRA,是否有任务之间融合或泛化的可能性,e.g. 多个任务组合在一起用现在 RLVR 的范式来训,这个会反过来加强现有 pretrain + posttrain 范式下的模型能力

4)进一步落地,可以从算法和验证成本两方面努力:A)算法上努力把「连续 reward 推到 稀疏 reward」,进一步提升 efficiency(文中 50 steps * 512 rollouts 等于一个任务还是尝试 25k 次,但很多涉及人的工作环境几乎只能 rollout 1 次);B)想办法降低 verification cost,比如建立仿真环境 或者 训练 proxy model,这个可能是 AI4S 团队可以发力的地方,提前准备好受益于 online learning

方案

文章给出的方案,大框架上是一个比较 straightforward 的 one-sample RL

image.png

line 5 从 buffer 里面用 reuse 的方案采样一个初始状态,line 678 进行基于这个初始状态的 rollout,line 9 把轨迹加回 buffer 里面,line 10 更新模型参数,文章区别于一般 RL 方案的创新点主要是在 line 5 和 line 10

line 5 用了 PUCT (Polynomial Upper Confidence Trees)状态重用策略