LLM 基础

Large Language Model：基于 Transformer 架构、在海量文本上预训练的语言模型，通过自回归方式逐 token 生成文本。

核心架构

Transformer

输入 Token → Embedding → [自注意力 + FFN] × N 层 → 输出 Logits → 采样

组件	作用
自注意力（Self-Attention）	每个 token 关注序列中所有其他 token
多头注意力（MHA）	并行多组注意力，捕捉不同维度的依赖
FFN	逐位置的前馈网络，增强非线性表达
LayerNorm	稳定训练，加速收敛
位置编码（RoPE/ALiBi）	注入 token 的位置信息

主流模型对比

模型	厂商	特点
GPT-4o	OpenAI	多模态，闭源
Claude 3.5 Sonnet	Anthropic	代码能力强，长上下文
Gemini 1.5 Pro	Google	百万 token 上下文
Llama 3	Meta	开源，可本地部署
Qwen2.5	阿里	中文效果好，开源
DeepSeek-V3	DeepSeek	推理能力强，开源

关键参数

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "解释 RAG"}],
    temperature=0.7,      # 随机性：0=确定，1=创意，>1=混乱
    top_p=0.9,            # 核采样：只从概率累计前90%的token中采样
    max_tokens=1024,      # 最大输出长度
    frequency_penalty=0,  # 抑制重复词（0~2）
    presence_penalty=0,   # 鼓励话题多样性（0~2）
)

参数	建议值	场景
`temperature`	0.0	代码生成、结构化输出
`temperature`	0.7	通用问答
`temperature`	1.0+	创意写作

上下文窗口

模型一次能处理的最大 token 数（输入 + 输出）：

模型	上下文窗口
GPT-4o	128K
Claude 3.5	200K
Gemini 1.5 Pro	1M
Llama 3.1 70B	128K

Token 估算：中文约 1.5~2 字/token，英文约 0.75 词/token

推理方式

方式	说明
Zero-shot	直接提问，不给示例
Few-shot	给 2~5 个输入输出示例引导格式
CoT	加入”逐步思考”引导推理过程
扩展思考	Claude 3.7+/o1 系列内置深层推理

微调 vs RAG

方式	适用场景	成本
Prompt 工程	快速迭代，无私域数据	极低
RAG	私域知识、实时更新	低
Fine-tuning	特定格式/风格固化	中
预训练	全新领域知识注入	极高

知识仓库

探索

LLM 基础

LLM 基础

核心架构

Transformer

主流模型对比

关键参数

上下文窗口

推理方式

微调 vs RAG

相关文档

关系图谱

目录

反向链接