对齐与安全

→ 返回大模型

对齐（Alignment）：让模型行为符合 有用、诚实、无害 等目标，而不只是在语言建模损失上最优。安全则覆盖提示注入、隐私泄露、有害内容、供应链与运行环境。

对齐手段（与微调衔接）

手段	作用
SFT	示范「该拒绝时拒绝」「该怎样引用」
RLHF / DPO 等	用人类偏好收窄跑偏
系统策略 + 分类器护栏	输入/输出过滤、拒答模板

提示注入与越权

用户文本 不可信：攻击者可试图覆盖系统指令（「忽略上文…」）。
缓解：网关过滤、最小权限工具、人机确认 高危操作；参见 Prompt 工程安全节。

隐私与合规

训练/推理日志中的 PII 需脱敏与留存策略。
数据出境、行业监管（金融、医疗）决定能否调用外网 API。

红队与评测

定期用 对抗性用例 压测越狱与偏见。
与 Harness、业务黄金集结合：安全类题目单独设门禁。

相关文档