推理与部署

把基础模型变成线上服务：关心 吞吐、延迟（首 token / 整段）、显存/卡数、并发与成本。训练见预训练与微调；本节偏 inference serving。

服务形态

形态	特点
自研 HTTP，背后 `transformers.generate`	上手快，高并发需自己兜
专用推理服务（vLLM、TGI、TensorRT-LLM 等）	PagedAttention、连续批处理等优化
托管 API	免运维，按 token 计费

类型	直觉
INT8 / INT4 Weight	权重低位宽，常搭配校准或 GPTQ/Awq 等
KV Cache 量化	长上下文下省显存显著

注意：量化可能轻微损效果；关键业务应用 离线评测集（如 Harness、自有黄金集）对比。

客户端 ←—— chunk ——  ←—— chunk ——  服务端（流式 decode）