推理与上下文专有名词
程小虎
推理与上下文专有名词
学习目标:理解模型如何根据上下文生成答案,以及哪些参数会影响输出质量。
1. 这一类为什么重要
AI Agent 每一次思考、调用工具、总结结果,本质上都是一次或多次模型推理。上下文决定模型“知道什么”,采样参数决定模型“怎么说”。
2. 核心名词详解
| 名词 | 详细说明 | 常见使用场景 |
|---|---|---|
| Inference(推理) | 使用已经训练好的模型,根据输入生成输出的过程。 | 聊天、问答、Agent 决策、代码生成。 |
| Context(上下文) | 模型当前可见的全部信息,包括系统提示词、用户问题、历史对话、检索内容、工具结果。 | 多轮对话、RAG、Agent 工作流。 |
| Context Window(上下文窗口) | 模型一次推理最多能处理的 Token 数量。 | 长文档问答、代码仓库分析、长任务规划。 |
| Prompt(提示词) | 发送给模型的输入文本,用于说明任务、角色、约束和输出格式。 | Prompt 工程、Agent 指令、模板化任务。 |
| System Prompt(系统提示词) | 优先级较高的提示词,用来规定模型角色、规则和安全约束。 | Agent 行为约束、工具调用规则、输出格式控制。 |
| User Prompt(用户提示词) | 用户直接输入的问题或任务。 | 日常对话、任务执行入口。 |
| Completion(补全) | 模型基于输入继续生成文本的结果。 | 文本生成、代码补全、摘要生成。 |
| Decoding(解码) | 从模型预测概率中选择具体 Token 的策略。 | 控制输出稳定性、多样性和创造性。 |
| Temperature | 控制随机性的参数,值越高输出越发散,值越低输出越稳定。 | 创意写作可调高,严谨问答通常调低。 |
| Top-k | 只从概率最高的 k 个 Token 中采样。 | 限制模型输出过于发散。 |
| Top-p | 也叫 Nucleus Sampling,从累计概率达到 p 的候选 Token 中采样。 | 平衡稳定性与多样性。 |
| Stop Sequence(停止序列) | 指定模型遇到某些字符串时停止生成。 | 工具调用边界、结构化输出控制。 |
| Hallucination(幻觉) | 模型生成看似合理但不真实或无依据的内容。 | 知识问答、法律医疗、企业知识库场景必须重点控制。 |
3. 使用场景
- 调整
temperature让 Agent 输出更稳定或更有创造性。 - 控制上下文窗口,避免历史对话或检索内容过长导致关键信息被截断。
- 用 Stop Sequence 限制模型只输出 JSON、SQL 或工具参数。
- 通过 RAG 和引用来源降低幻觉。
4. 推理流程图
5. 学习建议
上下文不是“记忆”的同义词。模型只能直接使用当前上下文窗口里的内容,窗口外的信息必须通过记忆、检索或重新注入才能被使用。
