Agent 安全与护栏

返回 AI Agent

Agent 能调工具,风险面大于纯聊天:数据外泄、越权操作、恶意提示覆盖系统策略。需要 纵深防御:网关、工具层、模型层与人类审批协同。


威胁简表

风险示例
提示注入用户文本诱导模型泄露系统提示或越权调工具
工具滥用模型一次删库、对外发敏感字段
供应链恶意 MCP Server、被篡改的依赖
数据残留日志/Tracing 把 PII 写进第三方

缓解策略

  • 工具白名单 + 参数校验:JSON Schema 之外再做业务规则(金额上限、路径前缀)。
  • 人机确认(Human-in-the-loop):高危操作二次确认;LangGraph 便于挂 interrupt。
  • 出站控制:外网、内网分区;敏感环境用 无出网沙箱
  • 输入输出过滤器:策略模型、正则、DLP;参见 Prompt 工程

评测


相关文档