1 整体方法非常干净简洁,不必要的花活全没有,当然创新点也不算多
2 预训练数据质量高,分数在同级别很高
3 实验拆得很细,团队应该收获有很多 know how
4 thinking mode 会损害 retrieval,长序列这块还有空间。大于 32K 的 Longer CoT 也还有空间(但需要预训练的长度也跟上)
5 对于小模型,online 蒸馏比 RL 好
6 因为用了 think-fusion-mode,其实有牺牲一定推理性能,算是交了对齐税
MMLU-Pro、数学、代码 比 dpsk-V3-base 明显分数高,其他多语言和通用评测强得不明显。数据质量高


<think> </think> 。只是 non-thinking-mode 的 thinking content 是空的On-policy 蒸馏对小模型比 RL 好,甚至提升 top@k

Ablation
Math & code 做完 reasoning RL 达到顶峰
Agent tool use 能力,general RL 也很关键
通用语言能力,很需要 General RL

模型越大,32k 往上的衰减越小

RULER 大海捞针上,Non-thinking mode 更高。long CoT 在 retrieval 任务上甚至掉点,是一个可提升的点

Thinking 32k 再往上应该还有空间