大模型基础专有名词
程小虎
大模型基础专有名词
学习目标:理解 AI Agent 背后的大语言模型是如何接收文本、处理文本并生成结果的。
1. 这一类为什么重要
AI Agent 的“智能”主要来自大语言模型。要理解 Agent 为什么能规划、调用工具、总结结果,就需要先理解模型内部最基础的概念:Token、Embedding、Transformer、Attention、参数和模型权重。
2. 核心名词详解
| 名词 | 详细说明 | 常见使用场景 |
|---|---|---|
| LLM(大语言模型) | Large Language Model,基于海量文本训练出来的生成式模型,可以根据上下文预测下一个 Token。 | 聊天机器人、代码生成、知识问答、Agent 推理核心。 |
| Foundation Model(基础模型) | 能适配多种任务的大规模预训练模型,是后续微调、指令对齐和 Agent 系统的基础。 | GPT、Claude、Gemini、Qwen、Llama 等模型家族。 |
| Transformer | 当前主流大模型的核心神经网络结构,依靠 Attention 机制处理序列信息。 | 几乎所有现代 LLM、视觉语言模型、多模态模型。 |
| Token | 模型处理文本的最小单位,可以是一个字、一个词、一个词片段或符号。 | 计算上下文长度、计费、推理速度、Prompt 长度控制。 |
| Tokenizer(分词器) | 把自然语言文本切分成 Token,并把 Token 转成模型可理解的 ID。 | 估算输入长度、处理中文/英文混合文本、控制成本。 |
| Embedding(嵌入) | 把 Token、句子或文档转换为向量,向量之间的距离可以表示语义相似度。 | RAG 检索、语义搜索、推荐、聚类。 |
| Vocabulary(词表) | Tokenizer 支持的全部 Token 集合。 | 判断生僻词、专有名词、中文切分效果。 |
| Positional Encoding(位置编码) | 给 Token 加上位置信息,让模型知道词语出现的顺序。 | 长文本理解、代码结构理解、上下文顺序推理。 |
| Parameters(参数) | 模型内部可学习的数值,参数越多通常表达能力越强,但推理成本也更高。 | 选择 7B、14B、72B、MoE 等不同规模模型。 |
| Model Weights(模型权重) | 训练后得到的参数文件,是模型能力的实际载体。 | 本地部署、模型下载、量化、微调。 |
3. 使用场景
- 选择模型时判断模型规模、能力和部署成本。
- 设计 Prompt 时估算 Token 数量和上下文长度。
- 搭建 RAG 时理解 Embedding 与向量检索的关系。
- 分析模型输出质量时判断是模型能力、上下文不足还是 Prompt 问题。
4. 基础流程图
5. 学习建议
先理解 Token 与 Transformer,再学习 Attention 和上下文窗口。不要一开始就陷入数学公式,先把“文本如何变成模型可计算的数据”理解清楚。
