对齐与安全

返回大模型

对齐(Alignment):让模型行为符合 有用、诚实、无害 等目标,而不只是在语言建模损失上最优。安全 则覆盖提示注入、隐私泄露、有害内容、供应链与运行环境。


对齐手段(与 微调 衔接)

手段作用
SFT示范「该拒绝时拒绝」「该怎样引用」
RLHF / DPO 等用人类偏好收窄跑偏
系统策略 + 分类器护栏输入/输出过滤、拒答模板

提示注入与越权

  • 用户文本 不可信:攻击者可试图覆盖系统指令(「忽略上文…」)。
  • 缓解:网关过滤、最小权限工具、人机确认 高危操作;参见 Prompt 工程 安全节。

隐私与合规

  • 训练/推理日志中的 PII 需脱敏与留存策略。
  • 数据出境、行业监管(金融、医疗)决定能否调用外网 API。

红队与评测

  • 定期用 对抗性用例 压测越狱与偏见。
  • Harness、业务黄金集结合:安全类题目单独设门禁。

相关文档