安全与评估专有名词

程小虎

安全与评估专有名词

学习目标：理解如何判断 Agent 是否可靠、安全、可控。

1. 这一类为什么重要

AI Agent 能调用工具、访问知识库、执行操作，所以安全风险比普通聊天机器人更高。评估体系可以帮助我们发现幻觉、越权、偏见和不稳定输出。

2. 核心名词详解

名词	详细说明	常见使用场景
Alignment（对齐）	让模型行为符合人类价值、规则和任务目标。	安全助手、企业合规场景。
Safety（安全）	防止模型产生有害、违规或危险输出。	内容审核、工具执行限制。
Bias（偏见）	模型输出中存在不公平或片面的倾向。	招聘、金融、教育等敏感场景。
Toxicity（有害内容）	攻击性、辱骂、歧视或危险内容。	社区、客服、公开聊天系统。
Evaluation / Eval（评估）	系统化测试模型或 Agent 表现的方法。	上线前测试、版本对比。
Benchmark（基准测试）	用标准任务集比较模型能力。	模型选型、能力评估。
MMLU	综合知识和推理能力 benchmark。	通用模型能力对比。
HumanEval	代码生成能力评估集。	代码模型、编程 Agent 评估。
BLEU / ROUGE	文本生成与参考答案相似度指标。	翻译、摘要评估。
Faithfulness（忠实性）	输出是否忠实于给定资料。	RAG 问答、摘要。
Groundedness（有依据性）	回答是否有明确依据和引用来源。	企业知识库、合规问答。
Red Teaming（红队测试）	主动设计攻击样例测试系统安全边界。	Prompt 注入、越权工具调用测试。

3. 使用场景

上线 Agent 前测试是否会误调用危险工具。
检查 RAG 回答是否基于检索资料，而不是模型编造。
比较不同模型在代码生成、中文问答、长文档总结上的表现。
通过红队测试验证 Prompt Injection 防护。

4. Agent 安全评估流程图

Agent 安全评估从测试集、运行、记录到风险定位或通过评估的流程图

5. 学习建议

Agent 安全不是只靠模型“自觉”。要从系统层面限制工具权限、校验输入输出、记录执行过程，并用测试集持续评估。

目录