2601 关于 Online Learning 的思考和推演

Alex，Jan 2026

<aside>

Takeaway

现有范式的不足 & 改进方案
- 现有 transformer 有两大原理上的不足：1）是在用「短期记忆 + context management」强行实现中期记忆，而没有模型原生的中期记忆，2）没有实现推理即学习。从这两方面可以分别改进
- 另一个偏正交的方向是把 RL 或 retrieval 用进 pretrain 阶段，提升数据利用效率、甚至超越压缩机制
online learning 的实现可能分为三个阶段：1）在现有范式下，进一步提升 long horizen 能力，2）不大改现有范式，但引入真正的中期记忆（及其更新方案），形态上可能基于现有模型 adapt，3）从 pretrain 开始改动现有训练范式和模型架构。
online learning 仍然会最先在 coding 任务上先落地，然后渗透到其他领域，比如数据分析、偏主观的创造性任务
- 大规模替代生产力是 online learning 的终极目标，但替代的拐点是 AI 产生正收益：$\text{human cost} - \text{AI cost} > \text{verification cost} + \text{cost of potential error}$
- 按验证成本、错误代价高低，可将任务分为 4 个象限。预期 online learning 会从低验证成本、低错误代价区域开始渗透（意味着最高的反馈信号强度 + 经济可行度），最典型的就是 coding。同时关注有哪些变量能够降低验证成本和错误代价
按照 OpenAI 和 METR 的预期，27 年前后可以实现 AI 实习生，完成小的科学发现 or 自主完成等于人类专家 1 个月工作量的软件工程工作
online learning 的理论框架已建立，预期进入到快速迭代期，但具体方案尚未收敛，工程优化尚未开始
- online learning 实现的两个要素：反馈和记忆，近期工作 TTT-E2E 和 nested learning 在设计上都已覆盖（但实现上预期有较大迭代空间），框架已建立
- TTT-v1 迭代为 TTT-E2E；deepmind 在 TTT 路线上，Titans → MIRAS → nested learning 一年内迭代了三版 </aside>

Online Leanring 实现的要素和路径

online learning 实现的要素：反馈机制、记忆机制

反馈机制：包括外部环境的、价值函数的反馈，和内部反馈基于惊奇度驱动的反馈（surprise）e.g. TTT 中的 $\| f(\theta_K x) - \theta_V x \|^2$

记忆机制：包括短中长期记忆的载体、记忆的更新算法、记忆的相互转化 / 门控机制

现有架构下，上下文长度、上下文过长后降智等问题仍有提升空间 link

现有 transformer 架构下的中期记忆，是强行用短期记忆 + context management 实现的（在 context 中使用 skills、RAG、agentic noting tools 等）；理想情况下，应该让模型自行选择如何将外部记忆和短期记忆转化为中期记忆

	现有架构	理想架构
短期记忆	KV Cache	token activation、local window
中期记忆	短期记忆 + context management	fast weight / LoRA（TTT 能解）
长期记忆	模型权重	slow weight with continual updates（TTT 也没有解决）

实现路径，由近到远

	目标	潜在方案	预期时间	谁会做
1 补丁阶段	不改变现有范式，但提升 long horizen 能力（比如体现在METR、GDP Eval、Paper Bench、MLE Bench）	- context 进一步做长（linear / sparse）、提高上下文保真度、提高 token efficiency

让模型自己学会使用 memory tool / 记笔记、更好的 context management 机制（e.g. skills、multi-agent），本质是模型不进化，外部工具 & 记忆随上下文进化（上面两点目前已经有些进展，e.g. 在 METR 上面 opus 4.5 已经快要突破上界了） | 未来 1 年（如果每个优化点带来一倍提升，long horizon 能力至少还有十倍空间可以挖） | 现有模型公司 | | 2 混合阶段 | 不大改现有范式，但引入真正的中期记忆（及其更新方案） | - 加一个不定期进行的 tuning 阶段，e.g. 将一部分 context 固化为 LoRA 权重，比如 TTT-Discover
从现有 pretrained Transformer 模型 adapt 到 TTT 架构（比如 TTT-E2E 中 futuer work 提到） | 未来 1-2 年 | （现有模型公司）+ neo labs + 学界 | | 3 原生阶段 | 从 pretrain 开始改动现有训练范式和模型架构 | - 原生 TTT / Neural Memory（完全实现每一步输出都是推理即学习），e.g. nested learning
pretrain with X，e.g. X = reinforcement、retrival，超越现有 pretrain 阶段的压缩理论（也可能渐进实现，e.g. 逐步在 pretrain 中加入更高比例的合成数据） | 未来 2-3 年 + | （现有模型公司）+ neo labs |

其他方案：
- self-play 路线（但 ilya 在 dwarkesh 播客里面提到目前局限在谈判、游戏、策略等可验证场景） link
- 不改架构的 self-improvement Agent 路线（可以划分在 stage 1 中）：Darwin Gödel Machine link，AlphaEvolve

一些推演 & 判断

大规模替代生产力是 online learning 的终极目标，但替代的拐点是 AI 产生正收益： $\text{human cost} - \text{AI cost} > \text{verification cost} + \text{cost of potential error}$
- human cost 可以观察 GDPEval、METR 等指标；AI cost 主要是 token 成本
- 验证成本和错误代价的高低，下面详细拆解

online learning 任然可能在 coding 任务上先落地，然后渗透到其他领域

按验证成本、错误代价高低，可将任务分为 4 个象限。online learning 会从第三象限开始渗透（低验证成本、低错误代价），因为意味着最高的反馈信号强度和经济上的可行度

%%{init: { "quadrantChart": { "chartWidth": 700, "chartHeight": 400 }, "themeVariables": { "pointTextSize": 18, "quadrantTitleTextSize": 20, "xAxisLabelFontSize": 20, "yAxisLabelFontSize": 20, "quadrantInternalBorderStrokeWidth": 2 } } }%%
quadrantChart
    %% title AI 应用落地评估矩阵 (AI Use Case Matrix)
    x-axis "低验证成本" --> "高验证成本"
    y-axis "低错误代价" --> "高错误代价"
    
    %% 定义四个象限的背景颜色和核心逻辑
    quadrant-1 "最难超越拐点"
    quadrant-2 "AI 初筛，人做决策"
    quadrant-3 "最容易超越拐点 / 强在线学习"
    quadrant-4 "AI 提案，人做修改"

    %% 象限 III：左下 (低验证 x 低代价) -> 这里的应用最成熟
    "代码生成（有测试覆盖的场景)" : [0.25, 0.2]
    "表单自动化/数据提取" : [0.25, 0.3]

    %% 象限 II：左上 (低验证 x 高代价) -> 人必须在回路中
    "合规/内容审核" : [0.25, 0.7]
    "判例/文献精准检索（法律/医疗等）" : [0.25, 0.8]

    %% 象限 IV：右下 (高验证 x 低代价) -> 鸡肋陷阱
    "长会议录音总结" : [0.75, 0.2]
    "创意脑暴与方案生成" : [0.75, 0.3]

    %% 象限 I：右上 (高验证 x 高代价) -> 这里的技术攻坚最难
    "医疗最终诊断" : [0.75, 0.75]
    "企业战略决策" : [0.75, 0.875]
    "传统科研/湿实验" : [0.75, 0.65]

按反馈信号信噪比：coding → 数据分析 → 偏主观的任务
- coding：有高频的环境反馈和充足的上下文。可观测的信号：模型在同一 repo 内 PR 的合并上线比例稳定提升
- 数据分析：垂域 / 企业数据库是上下文，数据库提供类似 coding 的语法反馈，业务规则和分析结果提供更高阶反馈信号
- 偏主观的任务：场景如作为销售写一封给客户的 cold email、作为客服起草一个投诉回复。online learning 将交互轨迹和业务的反馈变为个性化的模型资产

任务的象限转移，会开启更多 online learning 的应用领域
- X 轴：核心是降低验证的成本，比如 AI4S 和多模态
  - AI4S：更好的模拟预测技术（e.g. 材料性质、分子动力学）降低了物理世界的湿实验的验证成本（Science 的一个已有受益点是加速文献调研、实验规划等桌面研究）
  - 多模态的作用：让上下文有更丰富的语义（例如视觉），降低验证成本
- Y 轴：核心是降低错误代价，比如构建沙盒环境 / 回滚机制、损失的责任金融化
  - L1：出错的损失用户自己承担
  - L2：AI 提供选项，用户确认执行，损失共同承担
  - L3：厂商 / 保险担责。例如可以通过影子模式进行 online learning 的 warmup，当错误率足够低了之后再上线
One more thing：关于 NV “收购” Groq，除了收编前 TPU 核心团队的防御性质外，也可能带有对未来模型范式转变的 bet
- Groq 的 LPU 芯片的优点在于：LPU 用 SRAM 替代 HBM 作为主要存储，在小 batch 下推理延迟更低；但缺点是 SRAM 容量过小，需要非常多芯片并行才能装下模型权重和 KV cache
- 但在 test-time training 的框架下，LPU 得以扬长避短：1）存上下文的空间复杂度从 KV Cache 的 O(N) 变为 O(1)，2）在序列长度维度，TTT 一般需要用到较小的 micro-batch 更新 fast weight，HBM速度不够快，会频繁涉及 SRAM 的读取和 swap link

模型能力的时间线

预期 2027 年可以实现 AI 实习生，实现小的科学发现 or 自主完成等于人类专家 1 个月工作量的软件工程工作

METR benchmark 的预测
- 模型能以 50% 可靠性完成人类专家 1 个月时间才能完成的软件工程任务的时间：可能在 2029（根据 2019-2025 年的数据预测）或 2027（根据 2024-2025 年的数据预测），模型能力二阶导呈现出加速迹象
- Claude Opus 4.5 在 METR task duration 指标上也已经显示出加速提升的迹象

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

OpenAI 在 25 年 10 月的 AMA 上的预测 link

阶段与时间	时间	发现级别	示例（根据理解，自己额外补充的）
AI 实习生：人类负责外层循环，AI 负责实现和调试	~ 2026年9月	小发现（单点优化）：在人类已知的公式和框架内，寻找局部更优解	计算机：针对特定硬件优化矩阵乘法算法降低延时
材料：筛选出一种特定配方的钙钛矿晶体结构
医药：针对已知靶点筛选出结合力更强的小分子
独立 PI：AI 端到端完成研究
~ 2028年3月	中等发现（机制/系统突破）：解决多目标冲突的复杂机制或系统问题	计算机：面向特定工作负载的领域加速器体系
材料：攻克全固态电池体系
医药：发现新的衰老代谢通路并设计组合干预疗法
顶尖科学家	2030年+	巨大发现（范式转变）：发明新的理论和数学工具，重新定义科学边界	计算机：证明或证伪 P vs NP 问题
材料：发现室温超导的底层物理机制并提出通用公式
物理：提出大统一理论 (统一强、弱、电磁相互作用力)

Q&A

online learning 的实现路径？—— 三个阶段。阶段一，在 1-2 年再实现 10 倍+ 的 long horizon 能力增长；阶段二，在阶段一的提升边际放缓后可能成为主流（预期 2027 年中），关注新方案在现有模型上的 adapt 情况；阶段三，完全改变现有 pretrain 范式，仍然非常早期，关注 scale up 情况
online learning 是现有模型公司，还是新 lab 的机会？—— 阶段一的市场是现有模型公司的机会。阶段二三所带来的增量部分会有 neo lab 的机会。阶段二三的市场大小取决于阶段一的天花板有多高和阶段二成熟的时间，目前看仍可观。Neo Labs 见 link
online learning 会在哪些领域先落地，产生什么样的影响？—— 如上文推演，会在 coding 首先大规模替代生产力，然后渗透到其他领域。AI4S 领域，具有自己的仿真模拟工具的、能够降低验证成本的研发平台公司会受益。其他的一些受益者：提供沙盒环境 / 回滚机制、提供损失的责任金融化服务的企业
online learning 会对硬件系统产生什么影响？ —— 如上文，对 KV cache 的存储变为 fast weight，SRAM 可能变得更重要，但同时涉及大量的 swap，可能需要 SSD（TLC）支持

Takeaway

目录

Online Leanring 实现的要素和路径

一些推演 & 判断

模型能力的时间线

Q&A