<aside>
Needle in a Haystack 这类大海捞针任务,大家分数都刷很高了。但这类任务评估的是直接的词汇匹配检索,不能代表灵活的、语义导向的任务(检索+推理)
一个 检索+语义导向 的例子,比如:
Claude 在上述这类任务上的表现显著好于 GPT、Gemini、Qwen

模型被明确要求复制一系列重复的单词,并在特定位置插入(or 修改 替换)一个独特的单词。这其实是一个逻辑上简单,但做起来很繁琐的任务。和代码 debug 的 pattern 比较像,但抽离了代码逻辑的部分

模型出错的 pattern
整体结果:Claude 系列模型,随上下文衰减最少

**Prompt 里面少废话:**Full prompt (>100k tokens),相比 focused prompt (~300 tokens),会显著影响模型能力

**如果有废话,最好不要有逻辑:**有逻辑顺序排列的干扰项,比随机打乱的干扰项,会更影响模型能力(prompt 的 pattern 可能会影响 attention,从而影响模型性能)
