推理与上下文专有名词

程小虎

推理与上下文专有名词

学习目标:理解模型如何根据上下文生成答案,以及哪些参数会影响输出质量。

1. 这一类为什么重要

AI Agent 每一次思考、调用工具、总结结果,本质上都是一次或多次模型推理。上下文决定模型“知道什么”,采样参数决定模型“怎么说”。

2. 核心名词详解

名词详细说明常见使用场景
Inference(推理)使用已经训练好的模型,根据输入生成输出的过程。聊天、问答、Agent 决策、代码生成。
Context(上下文)模型当前可见的全部信息,包括系统提示词、用户问题、历史对话、检索内容、工具结果。多轮对话、RAG、Agent 工作流。
Context Window(上下文窗口)模型一次推理最多能处理的 Token 数量。长文档问答、代码仓库分析、长任务规划。
Prompt(提示词)发送给模型的输入文本,用于说明任务、角色、约束和输出格式。Prompt 工程、Agent 指令、模板化任务。
System Prompt(系统提示词)优先级较高的提示词,用来规定模型角色、规则和安全约束。Agent 行为约束、工具调用规则、输出格式控制。
User Prompt(用户提示词)用户直接输入的问题或任务。日常对话、任务执行入口。
Completion(补全)模型基于输入继续生成文本的结果。文本生成、代码补全、摘要生成。
Decoding(解码)从模型预测概率中选择具体 Token 的策略。控制输出稳定性、多样性和创造性。
Temperature控制随机性的参数,值越高输出越发散,值越低输出越稳定。创意写作可调高,严谨问答通常调低。
Top-k只从概率最高的 k 个 Token 中采样。限制模型输出过于发散。
Top-p也叫 Nucleus Sampling,从累计概率达到 p 的候选 Token 中采样。平衡稳定性与多样性。
Stop Sequence(停止序列)指定模型遇到某些字符串时停止生成。工具调用边界、结构化输出控制。
Hallucination(幻觉)模型生成看似合理但不真实或无依据的内容。知识问答、法律医疗、企业知识库场景必须重点控制。

3. 使用场景

  • 调整 temperature 让 Agent 输出更稳定或更有创造性。
  • 控制上下文窗口,避免历史对话或检索内容过长导致关键信息被截断。
  • 用 Stop Sequence 限制模型只输出 JSON、SQL 或工具参数。
  • 通过 RAG 和引用来源降低幻觉。

4. 推理流程图

模型推理与上下文组合流程图

5. 学习建议

上下文不是“记忆”的同义词。模型只能直接使用当前上下文窗口里的内容,窗口外的信息必须通过记忆、检索或重新注入才能被使用。

最近更新 6/11/2026, 11:00:42 PM