LLM 基础

返回大模型

Large Language Model:基于 Transformer 架构、在海量文本上预训练的语言模型,通过自回归方式逐 token 生成文本。


核心架构

Transformer

输入 Token → Embedding → [自注意力 + FFN] × N 层 → 输出 Logits → 采样
组件作用
自注意力(Self-Attention)每个 token 关注序列中所有其他 token
多头注意力(MHA)并行多组注意力,捕捉不同维度的依赖
FFN逐位置的前馈网络,增强非线性表达
LayerNorm稳定训练,加速收敛
位置编码(RoPE/ALiBi)注入 token 的位置信息

主流模型对比

模型厂商特点
GPT-4oOpenAI多模态,闭源
Claude 3.5 SonnetAnthropic代码能力强,长上下文
Gemini 1.5 ProGoogle百万 token 上下文
Llama 3Meta开源,可本地部署
Qwen2.5阿里中文效果好,开源
DeepSeek-V3DeepSeek推理能力强,开源

关键参数

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "解释 RAG"}],
    temperature=0.7,      # 随机性:0=确定,1=创意,>1=混乱
    top_p=0.9,            # 核采样:只从概率累计前90%的token中采样
    max_tokens=1024,      # 最大输出长度
    frequency_penalty=0,  # 抑制重复词(0~2)
    presence_penalty=0,   # 鼓励话题多样性(0~2)
)
参数建议值场景
temperature0.0代码生成、结构化输出
temperature0.7通用问答
temperature1.0+创意写作

上下文窗口

模型一次能处理的最大 token 数(输入 + 输出):

模型上下文窗口
GPT-4o128K
Claude 3.5200K
Gemini 1.5 Pro1M
Llama 3.1 70B128K

Token 估算:中文约 1.5~2 字/token,英文约 0.75 词/token


推理方式

方式说明
Zero-shot直接提问,不给示例
Few-shot给 2~5 个输入输出示例引导格式
CoT加入”逐步思考”引导推理过程
扩展思考Claude 3.7+/o1 系列内置深层推理

微调 vs RAG

方式适用场景成本
Prompt 工程快速迭代,无私域数据极低
RAG私域知识、实时更新
Fine-tuning特定格式/风格固化
预训练全新领域知识注入极高

相关文档

  • Prompt 工程 — 提示词设计技巧
  • RAG — 检索增强生成
  • Embedding — 向量化原理
  • MCP — 模型上下文协议
  • A2A — Agent 间通信协议