最近又读了下图灵奖得主 Richard Sutton 的 the bitter lesson 和 the era of experience,感慨于 RS 老爷子的洞见之宏远和深刻
1️⃣ The bitter lesson:面对复杂度,应该利用算力的拓展而非专家经验
We should build in only the meta-methods that can find and capture this arbitrary complexity


2️⃣ The Era of Human Data:对人类数据的充分挖掘
Transformer 的出现开启了 scaling law:模型越大、数据越多、智能度也就上升
从而 AI 领域进入到了 the era of human data,并持续到现在。但随着人类数据已经快被耗尽,learning from human data 的范式也会无以为继

3️⃣ The era of experience:利用 RL system 进行自我强化
RL 框架下,扩展人类智能的含义有两层:
第一层:人类不需要写答案,而只用去评价好坏。显而易见,评价比给出答案更容易 比如,一个不会画画的人也能轻松分辨两幅画谁更好。这也就是之前 OpenAI 说的 super-alignment(weak supervise strong)
第二层,RL 不仅不需要 human data,甚至不靠 human reward,而简单依赖环境反馈。 Their rewards will be grounded in their experience of the environment, rather than coming from human prejudgement
4️⃣ Reward signal 单点提升指向智能
图5,RL using verifiable reward,这个 reward 可以是 “代码执行的结果是否正确”(goal 是写一个更牛X的代码)。
但也可以更宏大,比如 reward 可以是 “世界的二氧化碳水平的观测”(goal 是减少全球变暖)
我们之前说,生成即理解(能生成下一个 token 就代表智能)
In the Era of Experience,能在复杂的真实环境中把一个简单的 reward signal 提升,甚至意味着更程度的智能
