Agent 安全与护栏

→ 返回 AI Agent

Agent 能调工具，风险面大于纯聊天：数据外泄、越权操作、恶意提示覆盖系统策略。需要 纵深防御：网关、工具层、模型层与人类审批协同。

威胁简表

风险	示例
提示注入	用户文本诱导模型泄露系统提示或越权调工具
工具滥用	模型一次删库、对外发敏感字段
供应链	恶意 MCP Server、被篡改的依赖
数据残留	日志/Tracing 把 PII 写进第三方

缓解策略

工具白名单 + 参数校验：JSON Schema 之外再做业务规则（金额上限、路径前缀）。
人机确认（Human-in-the-loop）：高危操作二次确认；LangGraph 便于挂 interrupt。
出站控制：外网、内网分区；敏感环境用 无出网沙箱。
输入输出过滤器：策略模型、正则、DLP；参见 Prompt 工程。

评测

将 攻击样例与越权用例 纳入离线门禁（Harness、自有黄金集）。
上线后 shadow 与抽检：评测集与线上回归。

相关文档