1 整体方法非常干净简洁,不必要的花活全没有,当然创新点也不算多

2 预训练数据质量高,分数在同级别很高

3 实验拆得很细,团队应该收获有很多 know how

4 thinking mode 会损害 retrieval,长序列这块还有空间。大于 32K 的 Longer CoT 也还有空间(但需要预训练的长度也跟上)

5 对于小模型,online 蒸馏比 RL 好

6 因为用了 think-fusion-mode,其实有牺牲一定推理性能,算是交了对齐税

预训练

后训练:两个 SFT 阶段,两个 RL 阶段

2.png

其他

Thinking 32k 再往上应该还有空间

Thinking 32k 再往上应该还有空间