Alex,Jan 2026
<aside>
online learning 实现的要素:反馈机制、记忆机制
现有架构下,上下文长度、上下文过长后降智等问题仍有提升空间 link
现有 transformer 架构下的中期记忆,是强行用 短期记忆 + context management 实现的(在 context 中使用 skills、RAG、agentic noting tools 等);理想情况下,应该让模型自行选择 如何将外部记忆和短期记忆转化为中期记忆
| 现有架构 | 理想架构 | |
|---|---|---|
| 短期记忆 | KV Cache | token activation、local window |
| 中期记忆 | 短期记忆 + context management | fast weight / LoRA(TTT 能解) |
| 长期记忆 | 模型权重 | slow weight with continual updates(TTT 也没有解决) |
实现路径,由近到远
| 目标 | 潜在方案 | 预期时间 | 谁会做 | |
|---|---|---|---|---|
| 1 补丁阶段 | 不改变现有范式,但提升 long horizen 能力(比如 体现在METR、GDP Eval、Paper Bench、MLE Bench) | - context 进一步做长(linear / sparse)、提高上下文保真度、提高 token efficiency |
其他方案:
按验证成本、错误代价高低,可将任务分为 4 个象限。online learning 会从第三象限开始渗透(低验证成本、低错误代价),因为意味着最高的反馈信号强度和经济上的可行度
%%{init: { "quadrantChart": { "chartWidth": 700, "chartHeight": 400 }, "themeVariables": { "pointTextSize": 18, "quadrantTitleTextSize": 20, "xAxisLabelFontSize": 20, "yAxisLabelFontSize": 20, "quadrantInternalBorderStrokeWidth": 2 } } }%%
quadrantChart
%% title AI 应用落地评估矩阵 (AI Use Case Matrix)
x-axis "低验证成本" --> "高验证成本"
y-axis "低错误代价" --> "高错误代价"
%% 定义四个象限的背景颜色和核心逻辑
quadrant-1 "最难超越拐点"
quadrant-2 "AI 初筛,人做决策"
quadrant-3 "最容易超越拐点 / 强在线学习"
quadrant-4 "AI 提案,人做修改"
%% 象限 III:左下 (低验证 x 低代价) -> 这里的应用最成熟
"代码生成(有测试覆盖的场景)" : [0.25, 0.2]
"表单自动化/数据提取" : [0.25, 0.3]
%% 象限 II:左上 (低验证 x 高代价) -> 人必须在回路中
"合规/内容审核" : [0.25, 0.7]
"判例/文献精准检索(法律/医疗等)" : [0.25, 0.8]
%% 象限 IV:右下 (高验证 x 低代价) -> 鸡肋陷阱
"长会议录音总结" : [0.75, 0.2]
"创意脑暴与方案生成" : [0.75, 0.3]
%% 象限 I:右上 (高验证 x 高代价) -> 这里的技术攻坚最难
"医疗最终诊断" : [0.75, 0.75]
"企业战略决策" : [0.75, 0.875]
"传统科研/湿实验" : [0.75, 0.65]
按反馈信号信噪比:coding → 数据分析 → 偏主观的任务
预期 2027 年可以实现 AI 实习生,实现小的科学发现 or 自主完成等于人类专家 1 个月工作量的软件工程工作

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
OpenAI 在 25 年 10 月的 AMA 上的预测 link
| 阶段与时间 | 时间 | 发现级别 | 示例(根据理解,自己额外补充的) |
|---|---|---|---|
| AI 实习生:人类负责外层循环,AI 负责实现和调试 | ~ 2026年9月 | 小发现(单点优化):在人类已知的公式和框架内,寻找局部更优解 | 计算机: 针对特定硬件优化矩阵乘法算法降低延时 |
| 材料: 筛选出一种特定配方的钙钛矿晶体结构 | |||
| 医药: 针对已知靶点筛选出结合力更强的小分子 | |||
| 独立 PI:AI 端到端完成研究 | |||
| ~ 2028年3月 | 中等发现(机制/系统突破):解决多目标冲突的复杂机制或系统问题 | 计算机: 面向特定工作负载的领域加速器体系 | |
| 材料: 攻克全固态电池体系 | |||
| 医药: 发现新的衰老代谢通路并设计组合干预疗法 | |||
| 顶尖科学家 | 2030年+ | 巨大发现(范式转变):发明新的理论和数学工具,重新定义科学边界 | 计算机: 证明或证伪 P vs NP 问题 |
| 材料: 发现室温超导的底层物理机制并提出通用公式 | |||
| 物理: 提出大统一理论 (统一强、弱、电磁相互作用力) |