安全与评估专有名词

程小虎

安全与评估专有名词

学习目标:理解如何判断 Agent 是否可靠、安全、可控。

1. 这一类为什么重要

AI Agent 能调用工具、访问知识库、执行操作,所以安全风险比普通聊天机器人更高。评估体系可以帮助我们发现幻觉、越权、偏见和不稳定输出。

2. 核心名词详解

名词详细说明常见使用场景
Alignment(对齐)让模型行为符合人类价值、规则和任务目标。安全助手、企业合规场景。
Safety(安全)防止模型产生有害、违规或危险输出。内容审核、工具执行限制。
Bias(偏见)模型输出中存在不公平或片面的倾向。招聘、金融、教育等敏感场景。
Toxicity(有害内容)攻击性、辱骂、歧视或危险内容。社区、客服、公开聊天系统。
Evaluation / Eval(评估)系统化测试模型或 Agent 表现的方法。上线前测试、版本对比。
Benchmark(基准测试)用标准任务集比较模型能力。模型选型、能力评估。
MMLU综合知识和推理能力 benchmark。通用模型能力对比。
HumanEval代码生成能力评估集。代码模型、编程 Agent 评估。
BLEU / ROUGE文本生成与参考答案相似度指标。翻译、摘要评估。
Faithfulness(忠实性)输出是否忠实于给定资料。RAG 问答、摘要。
Groundedness(有依据性)回答是否有明确依据和引用来源。企业知识库、合规问答。
Red Teaming(红队测试)主动设计攻击样例测试系统安全边界。Prompt 注入、越权工具调用测试。

3. 使用场景

  • 上线 Agent 前测试是否会误调用危险工具。
  • 检查 RAG 回答是否基于检索资料,而不是模型编造。
  • 比较不同模型在代码生成、中文问答、长文档总结上的表现。
  • 通过红队测试验证 Prompt Injection 防护。

4. Agent 安全评估流程图

Agent 安全评估从测试集、运行、记录到风险定位或通过评估的流程图

5. 学习建议

Agent 安全不是只靠模型“自觉”。要从系统层面限制工具权限、校验输入输出、记录执行过程,并用测试集持续评估。

最近更新 6/11/2026, 11:00:42 PM