模型训练与微调专有名词

程小虎

模型训练与微调专有名词

学习目标:理解模型能力从哪里来,以及如何通过微调让模型更适合特定任务。

1. 这一类为什么重要

AI Agent 大多数时候直接调用现成模型,但在企业场景中,经常会遇到模型风格不符合、领域知识不足、格式不稳定等问题。训练与微调概念能帮助判断是否需要微调,还是只需要 Prompt 或 RAG。

2. 核心名词详解

名词详细说明常见使用场景
Pretraining(预训练)使用海量通用数据训练模型基础能力。形成语言理解、代码、推理等基础能力。
Fine-tuning(微调)在已有模型基础上用特定数据继续训练。行业术语、固定风格、特定任务。
SFTSupervised Fine-Tuning,监督微调,用人工标注样本训练模型。指令跟随、客服问答、结构化输出。
RLHFReinforcement Learning from Human Feedback,基于人类反馈的强化学习。提升模型对齐性、安全性和偏好符合度。
DPODirect Preference Optimization,直接使用偏好数据优化模型。比 RLHF 更简单的偏好对齐方法。
LoRA低秩适配微调方法,只训练少量附加参数。低成本微调、本地模型适配。
QLoRA结合量化和 LoRA 的低成本微调方法。显存有限时微调大模型。
Adapter插入模型中的小型可训练模块。多任务适配、模型插件化微调。
Dataset(数据集)用于训练、微调或评估的数据集合。构造问答对、指令数据、偏好数据。
Labeling(标注)人工或自动给数据添加答案、标签或偏好。SFT 数据、分类数据、评估集。
Loss Function(损失函数)衡量模型预测与目标之间差距的函数。训练优化目标。
Gradient(梯度)指示参数调整方向和幅度的数值。反向传播、优化器更新。
Backpropagation(反向传播)根据损失计算梯度并更新参数的训练过程。神经网络训练基础。

3. 使用场景

  • 当 Prompt 无法稳定控制输出格式时,考虑 SFT。
  • 当模型缺少最新私有知识时,优先考虑 RAG,而不是微调。
  • 当需要模型学习企业话术或分类标准时,可以考虑 LoRA 微调。
  • 当需要提高模型偏好表现时,考虑 DPO 或 RLHF。

4. 训练到部署流程图

模型从训练数据、预训练、微调到部署到 Agent 的流程图

5. 学习建议

优先顺序通常是:Prompt 优化 → RAG → 微调。不要一遇到效果不好就微调,很多问题其实是上下文、检索或指令不清楚导致的。

最近更新 6/11/2026, 11:00:42 PM