AI 云原生
→ 返回 云原生
现代企业将 AI 能力(LLM、RAG、向量检索)集成到云原生架构中,形成 AI Infra 层。
AI 云原生架构全景
用户输入
│
▼
AI Gateway(LLM 统一入口)
│
▼
AI Orchestrator(工作流编排)
│
├── RAG Pipeline(检索增强生成)
│ │
│ ├── Embedding Model(文本向量化)
│ ├── Vector DB(向量检索)
│ └── Reranker(重排序)
│
├── LLM Service(推理)
│ ├── OpenAI / Claude(云端)
│ ├── DeepSeek(云端)
│ └── vLLM / Ollama(私有化部署)
│
└── Tool Use / Function Calling
├── 搜索工具
├── 数据库查询
└── 外部 API
LLM 服务架构
云端 LLM
应用服务
│ HTTP API
▼
AI Gateway(LiteLLM / 自建)
│ 统一调用接口
├── OpenAI GPT-4
├── Anthropic Claude
├── Google Gemini
└── 本地 vLLM
AI Gateway 职责:
- 统一 API 格式(OpenAI 兼容)
- 多模型路由(按成本/能力选择)
- 限流(防止 token 超额)
- 缓存(相同 prompt 直接返回)
- 日志(记录所有调用,用于审计和优化)
- 故障转移(主模型不可用切备用)
私有化部署(vLLM)
K8s Node(GPU)
│
▼
vLLM Server(高性能 LLM 推理引擎)
├── PagedAttention(显存优化,提升吞吐)
├── 连续批处理(Continuous Batching)
└── 量化支持(AWQ / GPTQ,降低显存)
K8s GPU 调度:
resources:
limits:
nvidia.com/gpu: 2 # 申请 2 张 GPU通过 NVIDIA GPU Operator 自动管理 GPU 驱动和设备插件。
RAG(检索增强生成)
RAG 解决 LLM 知识截止日期和私有数据问题。
完整 RAG 流程
离线阶段(数据准备):
文档(PDF/Word/代码)
│
▼
文档分块(Chunking)
│ 按段落/固定 token 数切分
▼
Embedding 模型(text-embedding-3-large 等)
│ 文本 → 向量
▼
向量数据库(Qdrant / Milvus / pgvector)
在线阶段(查询):
用户问题
│
▼
Embedding(问题 → 向量)
│
▼
向量检索(Top-K 相似文档片段)
│
▼
Reranker(精排,提高相关性)
│
▼
构建 Prompt(问题 + 检索到的上下文)
│
▼
LLM 生成答案
文档分块策略
| 策略 | 说明 | 适用 |
|---|---|---|
| 固定大小分块 | 每块 N 个 token,有重叠 | 通用 |
| 语义分块 | 按段落/章节切分 | 结构化文档 |
| 递归分块 | 先大块再小块 | 长文档 |
| 父子分块 | 检索小块,返回大块 | 提高召回率 |
向量数据库
| 数据库 | 语言 | 特点 | 适用场景 |
|---|---|---|---|
| Qdrant | Rust | 高性能,云原生,过滤强 | 生产首选 |
| Milvus | Go+C++ | 云原生,多种索引 | 大规模 |
| pgvector | C(PG 插件) | 与现有 PG 集成 | 中小规模,简单部署 |
| Weaviate | Go | GraphQL API,混合搜索 | 知识图谱 |
| Chroma | Python | 轻量,本地开发 | 原型验证 |
AI Agent 架构
用户输入
│
▼
Agent Orchestrator(LangChain / LangGraph)
│
▼
ReAct 循环:
┌─────────────────────────────────┐
│ Thought:分析当前状态 │
│ Action:选择工具 │
│ Observation:执行工具,获取结果 │
└─────────────────────────────────┘
│ 直到任务完成
▼
最终答案
常用工具(Tool Use):
- Web 搜索(Tavily / Bing API)
- 代码执行(Code Interpreter)
- 数据库查询(Text-to-SQL)
- API 调用(HTTP Tool)
- 文件读写
多智能体系统
用户请求
│
▼
Orchestrator Agent(任务分解)
│
├── Research Agent(信息收集)
├── Coding Agent(代码生成)
├── Review Agent(代码审查)
└── Deploy Agent(自动部署)
通信协议:
- MCP(Model Context Protocol):标准化 Agent 与工具连接
- A2A(Agent-to-Agent):Agent 间通信标准
K8s AI Infra
GPU 节点池(专用节点)
│
├── GPU Operator(驱动管理)
├── DCGM Exporter(GPU 指标监控)
└── MIG(Multi-Instance GPU,一张卡分多个实例)
模型存储:
├── PVC(持久化卷,存储模型文件)
└── 对象存储(S3/OSS,大文件模型)
推理服务:
├── vLLM(高吞吐推理)
├── Triton Inference Server(多框架)
└── KServe(K8s 原生模型服务)
可观测性(AI 专项)
| 指标 | 说明 |
|---|---|
| Token/s | 推理吞吐量 |
| TTFT(Time to First Token) | 首 token 延迟 |
| E2E Latency | 完整响应延迟 |
| GPU 利用率 | 显卡使用效率 |
| Cache Hit Rate | KV Cache 命中率(显存优化关键指标) |
| Prompt / Completion Token 数 | 成本核算 |
技术栈推荐(2026)
| 类别 | 推荐 |
|---|---|
| K8s | K8s + GPU Operator |
| LLM 推理 | vLLM |
| AI Gateway | LiteLLM |
| 工作流编排 | LangGraph |
| 向量数据库 | Qdrant |
| Embedding | text-embedding-3-large / BGE |
| 可观测性 | OpenTelemetry + Langfuse |
| Agent 框架 | LangChain / CrewAI |