AI 云原生

返回 云原生

现代企业将 AI 能力(LLM、RAG、向量检索)集成到云原生架构中,形成 AI Infra 层。

AI 云原生架构全景

用户输入
    │
    ▼
AI Gateway(LLM 统一入口)
    │
    ▼
AI Orchestrator(工作流编排)
    │
    ├── RAG Pipeline(检索增强生成)
    │       │
    │       ├── Embedding Model(文本向量化)
    │       ├── Vector DB(向量检索)
    │       └── Reranker(重排序)
    │
    ├── LLM Service(推理)
    │       ├── OpenAI / Claude(云端)
    │       ├── DeepSeek(云端)
    │       └── vLLM / Ollama(私有化部署)
    │
    └── Tool Use / Function Calling
            ├── 搜索工具
            ├── 数据库查询
            └── 外部 API

LLM 服务架构

云端 LLM

应用服务
    │ HTTP API
    ▼
AI Gateway(LiteLLM / 自建)
    │ 统一调用接口
    ├── OpenAI GPT-4
    ├── Anthropic Claude
    ├── Google Gemini
    └── 本地 vLLM

AI Gateway 职责:

  • 统一 API 格式(OpenAI 兼容)
  • 多模型路由(按成本/能力选择)
  • 限流(防止 token 超额)
  • 缓存(相同 prompt 直接返回)
  • 日志(记录所有调用,用于审计和优化)
  • 故障转移(主模型不可用切备用)

私有化部署(vLLM)

K8s Node(GPU)
    │
    ▼
vLLM Server(高性能 LLM 推理引擎)
    ├── PagedAttention(显存优化,提升吞吐)
    ├── 连续批处理(Continuous Batching)
    └── 量化支持(AWQ / GPTQ,降低显存)

K8s GPU 调度:

resources:
  limits:
    nvidia.com/gpu: 2  # 申请 2 张 GPU

通过 NVIDIA GPU Operator 自动管理 GPU 驱动和设备插件。

RAG(检索增强生成)

RAG 解决 LLM 知识截止日期和私有数据问题。

完整 RAG 流程

离线阶段(数据准备):
文档(PDF/Word/代码)
    │
    ▼
文档分块(Chunking)
    │ 按段落/固定 token 数切分
    ▼
Embedding 模型(text-embedding-3-large 等)
    │ 文本 → 向量
    ▼
向量数据库(Qdrant / Milvus / pgvector)

在线阶段(查询):
用户问题
    │
    ▼
Embedding(问题 → 向量)
    │
    ▼
向量检索(Top-K 相似文档片段)
    │
    ▼
Reranker(精排,提高相关性)
    │
    ▼
构建 Prompt(问题 + 检索到的上下文)
    │
    ▼
LLM 生成答案

文档分块策略

策略说明适用
固定大小分块每块 N 个 token,有重叠通用
语义分块按段落/章节切分结构化文档
递归分块先大块再小块长文档
父子分块检索小块,返回大块提高召回率

向量数据库

数据库语言特点适用场景
QdrantRust高性能,云原生,过滤强生产首选
MilvusGo+C++云原生,多种索引大规模
pgvectorC(PG 插件)与现有 PG 集成中小规模,简单部署
WeaviateGoGraphQL API,混合搜索知识图谱
ChromaPython轻量,本地开发原型验证

AI Agent 架构

用户输入
    │
    ▼
Agent Orchestrator(LangChain / LangGraph)
    │
    ▼
ReAct 循环:
  ┌─────────────────────────────────┐
  │  Thought:分析当前状态           │
  │  Action:选择工具                │
  │  Observation:执行工具,获取结果  │
  └─────────────────────────────────┘
    │ 直到任务完成
    ▼
最终答案

常用工具(Tool Use):

  • Web 搜索(Tavily / Bing API)
  • 代码执行(Code Interpreter)
  • 数据库查询(Text-to-SQL)
  • API 调用(HTTP Tool)
  • 文件读写

多智能体系统

用户请求
    │
    ▼
Orchestrator Agent(任务分解)
    │
    ├── Research Agent(信息收集)
    ├── Coding Agent(代码生成)
    ├── Review Agent(代码审查)
    └── Deploy Agent(自动部署)

通信协议:

  • MCP(Model Context Protocol):标准化 Agent 与工具连接
  • A2A(Agent-to-Agent):Agent 间通信标准

K8s AI Infra

GPU 节点池(专用节点)
    │
    ├── GPU Operator(驱动管理)
    ├── DCGM Exporter(GPU 指标监控)
    └── MIG(Multi-Instance GPU,一张卡分多个实例)

模型存储:
    ├── PVC(持久化卷,存储模型文件)
    └── 对象存储(S3/OSS,大文件模型)

推理服务:
    ├── vLLM(高吞吐推理)
    ├── Triton Inference Server(多框架)
    └── KServe(K8s 原生模型服务)

可观测性(AI 专项)

指标说明
Token/s推理吞吐量
TTFT(Time to First Token)首 token 延迟
E2E Latency完整响应延迟
GPU 利用率显卡使用效率
Cache Hit RateKV Cache 命中率(显存优化关键指标)
Prompt / Completion Token 数成本核算

技术栈推荐(2026)

类别推荐
K8sK8s + GPU Operator
LLM 推理vLLM
AI GatewayLiteLLM
工作流编排LangGraph
向量数据库Qdrant
Embeddingtext-embedding-3-large / BGE
可观测性OpenTelemetry + Langfuse
Agent 框架LangChain / CrewAI