LLM 基础
→ 返回大模型
Large Language Model:基于 Transformer 架构、在海量文本上预训练的语言模型,通过自回归方式逐 token 生成文本。
核心架构
输入 Token → Embedding → [自注意力 + FFN] × N 层 → 输出 Logits → 采样
| 组件 | 作用 |
|---|
| 自注意力(Self-Attention) | 每个 token 关注序列中所有其他 token |
| 多头注意力(MHA) | 并行多组注意力,捕捉不同维度的依赖 |
| FFN | 逐位置的前馈网络,增强非线性表达 |
| LayerNorm | 稳定训练,加速收敛 |
| 位置编码(RoPE/ALiBi) | 注入 token 的位置信息 |
主流模型对比
| 模型 | 厂商 | 特点 |
|---|
| GPT-4o | OpenAI | 多模态,闭源 |
| Claude 3.5 Sonnet | Anthropic | 代码能力强,长上下文 |
| Gemini 1.5 Pro | Google | 百万 token 上下文 |
| Llama 3 | Meta | 开源,可本地部署 |
| Qwen2.5 | 阿里 | 中文效果好,开源 |
| DeepSeek-V3 | DeepSeek | 推理能力强,开源 |
关键参数
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "解释 RAG"}],
temperature=0.7, # 随机性:0=确定,1=创意,>1=混乱
top_p=0.9, # 核采样:只从概率累计前90%的token中采样
max_tokens=1024, # 最大输出长度
frequency_penalty=0, # 抑制重复词(0~2)
presence_penalty=0, # 鼓励话题多样性(0~2)
)
| 参数 | 建议值 | 场景 |
|---|
temperature | 0.0 | 代码生成、结构化输出 |
temperature | 0.7 | 通用问答 |
temperature | 1.0+ | 创意写作 |
上下文窗口
模型一次能处理的最大 token 数(输入 + 输出):
| 模型 | 上下文窗口 |
|---|
| GPT-4o | 128K |
| Claude 3.5 | 200K |
| Gemini 1.5 Pro | 1M |
| Llama 3.1 70B | 128K |
Token 估算:中文约 1.5~2 字/token,英文约 0.75 词/token
推理方式
| 方式 | 说明 |
|---|
| Zero-shot | 直接提问,不给示例 |
| Few-shot | 给 2~5 个输入输出示例引导格式 |
| CoT | 加入”逐步思考”引导推理过程 |
| 扩展思考 | Claude 3.7+/o1 系列内置深层推理 |
微调 vs RAG
| 方式 | 适用场景 | 成本 |
|---|
| Prompt 工程 | 快速迭代,无私域数据 | 极低 |
| RAG | 私域知识、实时更新 | 低 |
| Fine-tuning | 特定格式/风格固化 | 中 |
| 预训练 | 全新领域知识注入 | 极高 |
相关文档