上下文与长文本
→ 返回大模型
上下文窗口:模型单次前向能处理的 最大 token 数(输入 + 输出总长,依实现与计费口径略有差异)。窗口变大带来更强「一次读全本」能力,也考验 显存、延迟与位置外推。
KV Cache(解码阶段)
生成第 (t) 个 token 时,已生成部分的 K、V 可缓存,不必对前缀重复算注意力。
| 影响 | 说明 |
|---|---|
| 显存 | 随 序列长度 × 层数 × 头数 × 宽度 增长 |
| 带宽 | 极长上下文时常成为瓶颈 |
长上下文的常见技术向
| 方向 | 含义 |
|---|---|
| 位置编码外推 | 训练长度 4k,推理拉到 32k+ 仍尽量稳 |
| 注意力稀疏/线性近似 | 降低 (O(n^2)) 负担(各实现取舍不同) |
| 检索增强 | 把「很长」变成「只塞相关片段」——见 RAG |
工程使用建议
- 不要把整库无筛选塞进 prompt;先做 分块与检索。
- 系统提示 + 若干示范 也占 token;要为「真实用户输入」留白。
- 评估长文任务时,记录 输入长、输出长、是否截断,避免 silently 失败。