安全与评估专有名词
程小虎
安全与评估专有名词
学习目标:理解如何判断 Agent 是否可靠、安全、可控。
1. 这一类为什么重要
AI Agent 能调用工具、访问知识库、执行操作,所以安全风险比普通聊天机器人更高。评估体系可以帮助我们发现幻觉、越权、偏见和不稳定输出。
2. 核心名词详解
| 名词 | 详细说明 | 常见使用场景 |
|---|---|---|
| Alignment(对齐) | 让模型行为符合人类价值、规则和任务目标。 | 安全助手、企业合规场景。 |
| Safety(安全) | 防止模型产生有害、违规或危险输出。 | 内容审核、工具执行限制。 |
| Bias(偏见) | 模型输出中存在不公平或片面的倾向。 | 招聘、金融、教育等敏感场景。 |
| Toxicity(有害内容) | 攻击性、辱骂、歧视或危险内容。 | 社区、客服、公开聊天系统。 |
| Evaluation / Eval(评估) | 系统化测试模型或 Agent 表现的方法。 | 上线前测试、版本对比。 |
| Benchmark(基准测试) | 用标准任务集比较模型能力。 | 模型选型、能力评估。 |
| MMLU | 综合知识和推理能力 benchmark。 | 通用模型能力对比。 |
| HumanEval | 代码生成能力评估集。 | 代码模型、编程 Agent 评估。 |
| BLEU / ROUGE | 文本生成与参考答案相似度指标。 | 翻译、摘要评估。 |
| Faithfulness(忠实性) | 输出是否忠实于给定资料。 | RAG 问答、摘要。 |
| Groundedness(有依据性) | 回答是否有明确依据和引用来源。 | 企业知识库、合规问答。 |
| Red Teaming(红队测试) | 主动设计攻击样例测试系统安全边界。 | Prompt 注入、越权工具调用测试。 |
3. 使用场景
- 上线 Agent 前测试是否会误调用危险工具。
- 检查 RAG 回答是否基于检索资料,而不是模型编造。
- 比较不同模型在代码生成、中文问答、长文档总结上的表现。
- 通过红队测试验证 Prompt Injection 防护。
4. Agent 安全评估流程图
5. 学习建议
Agent 安全不是只靠模型“自觉”。要从系统层面限制工具权限、校验输入输出、记录执行过程,并用测试集持续评估。
