模型部署与性能专有名词
程小虎
模型部署与性能专有名词
学习目标:理解模型部署时的显存、速度、量化和服务框架等关键概念。
1. 这一类为什么重要
AI Agent 要稳定运行,离不开模型服务。部署性能决定了响应速度、并发能力和成本。尤其是本地部署时,需要理解量化、显存、吞吐和延迟。
2. 核心名词详解
| 名词 | 详细说明 | 常见使用场景 |
|---|---|---|
| Quantization(量化) | 用更低精度表示模型权重,减少显存和存储占用。 | 本地部署、低显存运行。 |
| FP16 / BF16 | 半精度浮点格式,常用于 GPU 推理和训练。 | 高性能推理、训练。 |
| INT8 / INT4 | 低比特整数量化格式,占用更少显存。 | 消费级显卡、本地大模型。 |
| GGUF | llama.cpp 常用的模型文件格式。 | Ollama、llama.cpp 本地运行。 |
| ONNX | 开放神经网络交换格式。 | 跨框架部署、推理优化。 |
| TensorRT | NVIDIA 推理优化框架。 | GPU 高性能部署。 |
| vLLM | 高吞吐大模型推理框架,核心优化包括 PagedAttention。 | 在线推理服务、高并发 API。 |
| Ollama | 简化本地大模型运行的工具。 | 本地学习、个人知识库、轻量 Agent。 |
| llama.cpp | C/C++ 实现的大模型推理框架。 | CPU/GPU 本地推理、GGUF 模型。 |
| Throughput(吞吐量) | 单位时间内系统能处理的 Token 或请求数量。 | 高并发服务压测。 |
| Latency(延迟) | 从请求到响应所需时间。 | 聊天体验、实时 Agent。 |
| Tokens per Second | 每秒生成 Token 数。 | 衡量模型生成速度。 |
| GPU VRAM(显存) | GPU 上可用内存,存放模型权重、KV Cache 和中间计算。 | 判断模型能否运行。 |
| Batch Size | 一次批处理的请求或样本数量。 | 提高吞吐,但会增加显存占用。 |
| Model Serving | 对外提供模型 API 服务的整体系统。 | 企业大模型平台、Agent 后端。 |
3. 使用场景
- 用 Ollama 快速运行本地模型做学习和测试。
- 用 vLLM 部署高并发模型 API。
- 通过 INT4/GGUF 在低显存机器上运行模型。
- 用吞吐和延迟指标评估服务是否满足业务需求。
4. 模型服务架构图
5. 学习建议
部署时要同时关注三件事:模型权重占用、KV Cache 占用、并发请求占用。只看模型大小是不够的。
