AI 云原生

现代企业将 AI 能力（LLM、RAG、向量检索）集成到云原生架构中，形成 AI Infra 层。

AI 云原生架构全景

用户输入
    │
    ▼
AI Gateway（LLM 统一入口）
    │
    ▼
AI Orchestrator（工作流编排）
    │
    ├── RAG Pipeline（检索增强生成）
    │       │
    │       ├── Embedding Model（文本向量化）
    │       ├── Vector DB（向量检索）
    │       └── Reranker（重排序）
    │
    ├── LLM Service（推理）
    │       ├── OpenAI / Claude（云端）
    │       ├── DeepSeek（云端）
    │       └── vLLM / Ollama（私有化部署）
    │
    └── Tool Use / Function Calling
            ├── 搜索工具
            ├── 数据库查询
            └── 外部 API

LLM 服务架构

云端 LLM

应用服务
    │ HTTP API
    ▼
AI Gateway（LiteLLM / 自建）
    │ 统一调用接口
    ├── OpenAI GPT-4
    ├── Anthropic Claude
    ├── Google Gemini
    └── 本地 vLLM

AI Gateway 职责：

统一 API 格式（OpenAI 兼容）
多模型路由（按成本/能力选择）
限流（防止 token 超额）
缓存（相同 prompt 直接返回）
日志（记录所有调用，用于审计和优化）
故障转移（主模型不可用切备用）

私有化部署（vLLM）

K8s Node（GPU）
    │
    ▼
vLLM Server（高性能 LLM 推理引擎）
    ├── PagedAttention（显存优化，提升吞吐）
    ├── 连续批处理（Continuous Batching）
    └── 量化支持（AWQ / GPTQ，降低显存）

K8s GPU 调度：

resources:
  limits:
    nvidia.com/gpu: 2  # 申请 2 张 GPU

通过 NVIDIA GPU Operator 自动管理 GPU 驱动和设备插件。

RAG（检索增强生成）

RAG 解决 LLM 知识截止日期和私有数据问题。

完整 RAG 流程

离线阶段（数据准备）：
文档（PDF/Word/代码）
    │
    ▼
文档分块（Chunking）
    │ 按段落/固定 token 数切分
    ▼
Embedding 模型（text-embedding-3-large 等）
    │ 文本 → 向量
    ▼
向量数据库（Qdrant / Milvus / pgvector）

在线阶段（查询）：
用户问题
    │
    ▼
Embedding（问题 → 向量）
    │
    ▼
向量检索（Top-K 相似文档片段）
    │
    ▼
Reranker（精排，提高相关性）
    │
    ▼
构建 Prompt（问题 + 检索到的上下文）
    │
    ▼
LLM 生成答案

文档分块策略

策略	说明	适用
固定大小分块	每块 N 个 token，有重叠	通用
语义分块	按段落/章节切分	结构化文档
递归分块	先大块再小块	长文档
父子分块	检索小块，返回大块	提高召回率

向量数据库

数据库	语言	特点	适用场景
Qdrant	Rust	高性能，云原生，过滤强	生产首选
Milvus	Go+C++	云原生，多种索引	大规模
pgvector	C（PG 插件）	与现有 PG 集成	中小规模，简单部署
Weaviate	Go	GraphQL API，混合搜索	知识图谱
Chroma	Python	轻量，本地开发	原型验证

AI Agent 架构

用户输入
    │
    ▼
Agent Orchestrator（LangChain / LangGraph）
    │
    ▼
ReAct 循环：
  ┌─────────────────────────────────┐
  │  Thought：分析当前状态           │
  │  Action：选择工具                │
  │  Observation：执行工具，获取结果  │
  └─────────────────────────────────┘
    │ 直到任务完成
    ▼
最终答案

常用工具（Tool Use）：

Web 搜索（Tavily / Bing API）
代码执行（Code Interpreter）
数据库查询（Text-to-SQL）
API 调用（HTTP Tool）
文件读写

多智能体系统

用户请求
    │
    ▼
Orchestrator Agent（任务分解）
    │
    ├── Research Agent（信息收集）
    ├── Coding Agent（代码生成）
    ├── Review Agent（代码审查）
    └── Deploy Agent（自动部署）

通信协议：

MCP（Model Context Protocol）：标准化 Agent 与工具连接
A2A（Agent-to-Agent）：Agent 间通信标准

K8s AI Infra

GPU 节点池（专用节点）
    │
    ├── GPU Operator（驱动管理）
    ├── DCGM Exporter（GPU 指标监控）
    └── MIG（Multi-Instance GPU，一张卡分多个实例）

模型存储：
    ├── PVC（持久化卷，存储模型文件）
    └── 对象存储（S3/OSS，大文件模型）

推理服务：
    ├── vLLM（高吞吐推理）
    ├── Triton Inference Server（多框架）
    └── KServe（K8s 原生模型服务）

可观测性（AI 专项）

指标	说明
Token/s	推理吞吐量
TTFT（Time to First Token）	首 token 延迟
E2E Latency	完整响应延迟
GPU 利用率	显卡使用效率
Cache Hit Rate	KV Cache 命中率（显存优化关键指标）
Prompt / Completion Token 数	成本核算

技术栈推荐（2026）

类别	推荐
K8s	K8s + GPU Operator
LLM 推理	vLLM
AI Gateway	LiteLLM
工作流编排	LangGraph
向量数据库	Qdrant
Embedding	text-embedding-3-large / BGE
可观测性	OpenTelemetry + Langfuse
Agent 框架	LangChain / CrewAI

知识仓库

探索

AI 云原生

AI 云原生

AI 云原生架构全景

LLM 服务架构

云端 LLM

私有化部署（vLLM）

RAG（检索增强生成）

完整 RAG 流程

文档分块策略

向量数据库

AI Agent 架构

多智能体系统

K8s AI Infra

可观测性（AI 专项）

技术栈推荐（2026）

关系图谱

目录

反向链接