推理与部署

返回大模型

把基础模型变成线上服务:关心 吞吐、延迟(首 token / 整段)显存/卡数并发成本。训练见 预训练与微调;本节偏 inference serving


服务形态

形态特点
自研 HTTP,背后 transformers.generate上手快,高并发需自己兜
专用推理服务(vLLM、TGI、TensorRT-LLM 等)PagedAttention、连续批处理等优化
托管 API免运维,按 token 计费

量化(降低显存与提高吞吐)

类型直觉
INT8 / INT4 Weight权重低位宽,常搭配校准或 GPTQ/Awq 等
KV Cache 量化长上下文下省显存显著

注意:量化可能轻微损效果;关键业务应用 离线评测集(如 Harness、自有黄金集)对比。


批处理与流式

  • Continuous batching:各请求长度不一仍可拼批,提高 GPU 利用。
  • 流式 SSE:首 token 早返回,改善体感延迟。
客户端 ←—— chunk ——  ←—— chunk ——  服务端(流式 decode)

容量与稳定性

  • 队列 + 限流:避免拖垮单卡;超长请求单独立规。
  • 多副本 + 会话粘滞(若需):有状态场景慎选。
  • 可观测:记录 延迟直方图、token 数、错误码、模型版本

相关文档