Alex,Jan 2026

Takeaway

目录

Online Leanring 实现的要素和路径

一些推演 & 判断

模型能力的时间线

预期 2027 年可以实现 AI 实习生,实现小的科学发现 or 自主完成等于人类专家 1 个月工作量的软件工程工作

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

Q&A

Paper Survey

RL 和 pretrain 结合:提升数据利用效率

近期一些文章把 RL 用进 pretrain / midtrain,显著提升了数据效率(小规模验证)

TTT (test time training)

TTT 相比 transformer + NTP,有几个重要的改变:fast weight、learning with inference、O(1) memory TTT 回答了怎么从 context(短期记忆)变成 fast weight(中期记忆),但 fast weight 如何变 slow weight 任然不清楚(现在每个 session 的 fast weight 需要 reset)

LoRA 相关

LoRA 作为一个轻量化的微调的优化,能够嫁接在其他技术上降低成本,实现一定程度的 continue learning

Google 发表的相关论文

Titan | https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/

image.png