推理与部署
→ 返回大模型
把基础模型变成线上服务:关心 吞吐、延迟(首 token / 整段)、显存/卡数、并发 与 成本。训练见 预训练与微调;本节偏 inference serving。
服务形态
| 形态 | 特点 |
|---|---|
自研 HTTP,背后 transformers.generate | 上手快,高并发需自己兜 |
| 专用推理服务(vLLM、TGI、TensorRT-LLM 等) | PagedAttention、连续批处理等优化 |
| 托管 API | 免运维,按 token 计费 |
量化(降低显存与提高吞吐)
| 类型 | 直觉 |
|---|---|
| INT8 / INT4 Weight | 权重低位宽,常搭配校准或 GPTQ/Awq 等 |
| KV Cache 量化 | 长上下文下省显存显著 |
注意:量化可能轻微损效果;关键业务应用 离线评测集(如 Harness、自有黄金集)对比。
批处理与流式
- Continuous batching:各请求长度不一仍可拼批,提高 GPU 利用。
- 流式 SSE:首 token 早返回,改善体感延迟。
客户端 ←—— chunk —— ←—— chunk —— 服务端(流式 decode)容量与稳定性
- 队列 + 限流:避免拖垮单卡;超长请求单独立规。
- 多副本 + 会话粘滞(若需):有状态场景慎选。
- 可观测:记录 延迟直方图、token 数、错误码、模型版本。