推理与上下文专有名词

程小虎

推理与上下文专有名词

学习目标：理解模型如何根据上下文生成答案，以及哪些参数会影响输出质量。

1. 这一类为什么重要

AI Agent 每一次思考、调用工具、总结结果，本质上都是一次或多次模型推理。上下文决定模型“知道什么”，采样参数决定模型“怎么说”。

2. 核心名词详解

名词	详细说明	常见使用场景
Inference（推理）	使用已经训练好的模型，根据输入生成输出的过程。	聊天、问答、Agent 决策、代码生成。
Context（上下文）	模型当前可见的全部信息，包括系统提示词、用户问题、历史对话、检索内容、工具结果。	多轮对话、RAG、Agent 工作流。
Context Window（上下文窗口）	模型一次推理最多能处理的 Token 数量。	长文档问答、代码仓库分析、长任务规划。
Prompt（提示词）	发送给模型的输入文本，用于说明任务、角色、约束和输出格式。	Prompt 工程、Agent 指令、模板化任务。
System Prompt（系统提示词）	优先级较高的提示词，用来规定模型角色、规则和安全约束。	Agent 行为约束、工具调用规则、输出格式控制。
User Prompt（用户提示词）	用户直接输入的问题或任务。	日常对话、任务执行入口。
Completion（补全）	模型基于输入继续生成文本的结果。	文本生成、代码补全、摘要生成。
Decoding（解码）	从模型预测概率中选择具体 Token 的策略。	控制输出稳定性、多样性和创造性。
Temperature	控制随机性的参数，值越高输出越发散，值越低输出越稳定。	创意写作可调高，严谨问答通常调低。
Top-k	只从概率最高的 k 个 Token 中采样。	限制模型输出过于发散。
Top-p	也叫 Nucleus Sampling，从累计概率达到 p 的候选 Token 中采样。	平衡稳定性与多样性。
Stop Sequence（停止序列）	指定模型遇到某些字符串时停止生成。	工具调用边界、结构化输出控制。
Hallucination（幻觉）	模型生成看似合理但不真实或无依据的内容。	知识问答、法律医疗、企业知识库场景必须重点控制。

3. 使用场景

调整 temperature 让 Agent 输出更稳定或更有创造性。
控制上下文窗口，避免历史对话或检索内容过长导致关键信息被截断。
用 Stop Sequence 限制模型只输出 JSON、SQL 或工具参数。
通过 RAG 和引用来源降低幻觉。

4. 推理流程图

模型推理与上下文组合流程图

5. 学习建议

上下文不是“记忆”的同义词。模型只能直接使用当前上下文窗口里的内容，窗口外的信息必须通过记忆、检索或重新注入才能被使用。

目录