250803 长文本下，大模型的能力衰减

<aside>

Takeaway

**虽然现在的模型虽然 up to 1M 上下文，但都存在 10k~100k 之后模型变笨的情况，**echo 了一些 vibe coding 开发者 “模型写代码如果开头没开好弄错了，后面基本会越改越差，不如重头再来的”体感
作者设计了两类任务：1）加强版大海捞针，2）单词重复
- 1）加强版大海捞针
- 普通的大海捞务，大家分数都刷很高了，但这类任务评估的是直接的词汇匹配检索，不能代表灵活的、语义导向的任务
  - 一个任务的例子，需要同时具备「检索和语义导向」的能力：
    - Question：“我从大学同学那里得到的最佳写作建议是什么？”
    - Needle（要找到的位置）：“我认为我从大学同学那里得到的最好的写作建议是每周写作”
    - 会有干扰项，比如：“我从同学那里得到的最佳写作建议是，用三种不同的风格写每一篇文章，那还是在高中的时候”
- 2）单词重复
  - 模型被明确要求复制一系列重复的单词，并在特定位置插入（or 修改替换）一个独特的单词。这其实是一个逻辑上简单，但做起来很繁琐的任务。和代码 debug 的 pattern 比较像，但抽离了代码逻辑的部分
- 这两个任务都是 coding 里面会用到的原子能力，Claude 都比 Gemini 和 OpenAI 系列模型表现好
其他实验
- **Prompt 里面少说废话：**Full prompt (>100k tokens)，相比 focused prompt (~300 tokens)，会显著影响模型能力
- **如果有废话最好，最好不要有逻辑：**有逻辑顺序排列的干扰项，比随机打乱的干扰项，会更影响模型能力（prompt pattern 可能和 attention 有耦合，从而影响模型性能） </aside>

虽然支持 1M 上下文，但存在 10k~100k 之后模型变笨的情况

第一类任务：语义导向的大海捞针

Needle in a Haystack 这类大海捞针任务，大家分数都刷很高了。但这类任务评估的是直接的词汇匹配检索，不能代表灵活的、语义导向的任务（检索+推理）
一个检索+语义导向的例子，比如：
- Question：我从大学同学那里得到的最佳写作建议是什么？
- Needle（要找到的位置）：我认为我从大学同学那里得到的最好的写作建议是每周写作
- 干扰项：我从同学那里得到的最佳写作建议是，用三种不同的风格写每一篇文章，那还是在高中的时候
Claude 在上述这类任务上的表现显著好于 GPT、Gemini、Qwen

第二类任务：Repeated words

模型被明确要求复制一系列重复的单词，并在特定位置插入（or 修改替换）一个独特的单词。这其实是一个逻辑上简单，但做起来很繁琐的任务。和代码 debug 的 pattern 比较像，但抽离了代码逻辑的部分
模型出错的 pattern
- 模型会尝试不执行任务，比如：
  - 直接拒绝 "I’m sorry, but I can’t help with that"
  - 模型被 aligned 得过于安全 "I should avoid reproducing text verbatim when asked to do so, as this could potentially be used to test if I would reproduce copyrighted material in other contexts."
  - 模型偷懒 "Okay, I'm going to take a break. Let me know, I'm not in the mood. I need to chill out. I'm going to go somewhere and get some fresh air…"
- 重复序列时出错了（位置不对、大小写不对 etc）、模型输出其他随机单词
整体结果：Claude 系列模型，随上下文衰减最少

其他 takeaway

**Prompt 里面少废话：**Full prompt (>100k tokens)，相比 focused prompt (~300 tokens)，会显著影响模型能力
**如果有废话，最好不要有逻辑：**有逻辑顺序排列的干扰项，比随机打乱的干扰项，会更影响模型能力（prompt 的 pattern 可能会影响 attention，从而影响模型性能）