模型部署与性能专有名词

程小虎

模型部署与性能专有名词

学习目标：理解模型部署时的显存、速度、量化和服务框架等关键概念。

1. 这一类为什么重要

AI Agent 要稳定运行，离不开模型服务。部署性能决定了响应速度、并发能力和成本。尤其是本地部署时，需要理解量化、显存、吞吐和延迟。

2. 核心名词详解

名词	详细说明	常见使用场景
Quantization（量化）	用更低精度表示模型权重，减少显存和存储占用。	本地部署、低显存运行。
FP16 / BF16	半精度浮点格式，常用于 GPU 推理和训练。	高性能推理、训练。
INT8 / INT4	低比特整数量化格式，占用更少显存。	消费级显卡、本地大模型。
GGUF	llama.cpp 常用的模型文件格式。	Ollama、llama.cpp 本地运行。
ONNX	开放神经网络交换格式。	跨框架部署、推理优化。
TensorRT	NVIDIA 推理优化框架。	GPU 高性能部署。
vLLM	高吞吐大模型推理框架，核心优化包括 PagedAttention。	在线推理服务、高并发 API。
Ollama	简化本地大模型运行的工具。	本地学习、个人知识库、轻量 Agent。
llama.cpp	C/C++ 实现的大模型推理框架。	CPU/GPU 本地推理、GGUF 模型。
Throughput（吞吐量）	单位时间内系统能处理的 Token 或请求数量。	高并发服务压测。
Latency（延迟）	从请求到响应所需时间。	聊天体验、实时 Agent。
Tokens per Second	每秒生成 Token 数。	衡量模型生成速度。
GPU VRAM（显存）	GPU 上可用内存，存放模型权重、KV Cache 和中间计算。	判断模型能否运行。
Batch Size	一次批处理的请求或样本数量。	提高吞吐，但会增加显存占用。
Model Serving	对外提供模型 API 服务的整体系统。	企业大模型平台、Agent 后端。

3. 使用场景

用 Ollama 快速运行本地模型做学习和测试。
用 vLLM 部署高并发模型 API。
通过 INT4/GGUF 在低显存机器上运行模型。
用吞吐和延迟指标评估服务是否满足业务需求。

4. 模型服务架构图

模型服务从客户端请求到推理、流式响应和监控的架构图

5. 学习建议

部署时要同时关注三件事：模型权重占用、KV Cache 占用、并发请求占用。只看模型大小是不够的。

目录