上下文与长文本

返回大模型

上下文窗口:模型单次前向能处理的 最大 token 数(输入 + 输出总长,依实现与计费口径略有差异)。窗口变大带来更强「一次读全本」能力,也考验 显存、延迟与位置外推


KV Cache(解码阶段)

生成第 (t) 个 token 时,已生成部分的 K、V 可缓存,不必对前缀重复算注意力。

影响说明
显存序列长度 × 层数 × 头数 × 宽度 增长
带宽极长上下文时常成为瓶颈

长上下文的常见技术向

方向含义
位置编码外推训练长度 4k,推理拉到 32k+ 仍尽量稳
注意力稀疏/线性近似降低 (O(n^2)) 负担(各实现取舍不同)
检索增强把「很长」变成「只塞相关片段」——见 RAG

工程使用建议

  • 不要把整库无筛选塞进 prompt;先做 分块与检索
  • 系统提示 + 若干示范 也占 token;要为「真实用户输入」留白。
  • 评估长文任务时,记录 输入长、输出长、是否截断,避免 silently 失败。

相关文档