Agent 安全与护栏
Agent 能调工具,风险面大于纯聊天:数据外泄、越权操作、恶意提示覆盖系统策略。需要 纵深防御:网关、工具层、模型层与人类审批协同。
威胁简表
| 风险 | 示例 |
|---|---|
| 提示注入 | 用户文本诱导模型泄露系统提示或越权调工具 |
| 工具滥用 | 模型一次删库、对外发敏感字段 |
| 供应链 | 恶意 MCP Server、被篡改的依赖 |
| 数据残留 | 日志/Tracing 把 PII 写进第三方 |
缓解策略
- 工具白名单 + 参数校验:JSON Schema 之外再做业务规则(金额上限、路径前缀)。
- 人机确认(Human-in-the-loop):高危操作二次确认;LangGraph 便于挂 interrupt。
- 出站控制:外网、内网分区;敏感环境用 无出网沙箱。
- 输入输出过滤器:策略模型、正则、DLP;参见 Prompt 工程。