对齐与安全
→ 返回大模型
对齐(Alignment):让模型行为符合 有用、诚实、无害 等目标,而不只是在语言建模损失上最优。安全 则覆盖提示注入、隐私泄露、有害内容、供应链与运行环境。
对齐手段(与 微调 衔接)
| 手段 | 作用 |
|---|---|
| SFT | 示范「该拒绝时拒绝」「该怎样引用」 |
| RLHF / DPO 等 | 用人类偏好收窄跑偏 |
| 系统策略 + 分类器护栏 | 输入/输出过滤、拒答模板 |
提示注入与越权
- 用户文本 不可信:攻击者可试图覆盖系统指令(「忽略上文…」)。
- 缓解:网关过滤、最小权限工具、人机确认 高危操作;参见 Prompt 工程 安全节。
隐私与合规
- 训练/推理日志中的 PII 需脱敏与留存策略。
- 数据出境、行业监管(金融、医疗)决定能否调用外网 API。
红队与评测
- 定期用 对抗性用例 压测越狱与偏见。
- 与 Harness、业务黄金集结合:安全类题目单独设门禁。