上下文与长文本

→ 返回大模型

上下文窗口：模型单次前向能处理的 最大 token 数（输入 + 输出总长，依实现与计费口径略有差异）。窗口变大带来更强「一次读全本」能力，也考验 显存、延迟与位置外推。

KV Cache（解码阶段）

生成第 (t) 个 token 时，已生成部分的 K、V 可缓存，不必对前缀重复算注意力。

影响	说明
显存	随序列长度 × 层数 × 头数 × 宽度增长
带宽	极长上下文时常成为瓶颈

长上下文的常见技术向

方向	含义
位置编码外推	训练长度 4k，推理拉到 32k+ 仍尽量稳
注意力稀疏/线性近似	降低 (O(n^2)) 负担（各实现取舍不同）
检索增强	把「很长」变成「只塞相关片段」——见 RAG

工程使用建议

不要把整库无筛选塞进 prompt；先做分块与检索。
系统提示 + 若干示范 也占 token；要为「真实用户输入」留白。
评估长文任务时，记录 输入长、输出长、是否截断，避免 silently 失败。

相关文档