模型部署与性能专有名词

程小虎

模型部署与性能专有名词

学习目标:理解模型部署时的显存、速度、量化和服务框架等关键概念。

1. 这一类为什么重要

AI Agent 要稳定运行,离不开模型服务。部署性能决定了响应速度、并发能力和成本。尤其是本地部署时,需要理解量化、显存、吞吐和延迟。

2. 核心名词详解

名词详细说明常见使用场景
Quantization(量化)用更低精度表示模型权重,减少显存和存储占用。本地部署、低显存运行。
FP16 / BF16半精度浮点格式,常用于 GPU 推理和训练。高性能推理、训练。
INT8 / INT4低比特整数量化格式,占用更少显存。消费级显卡、本地大模型。
GGUFllama.cpp 常用的模型文件格式。Ollama、llama.cpp 本地运行。
ONNX开放神经网络交换格式。跨框架部署、推理优化。
TensorRTNVIDIA 推理优化框架。GPU 高性能部署。
vLLM高吞吐大模型推理框架,核心优化包括 PagedAttention。在线推理服务、高并发 API。
Ollama简化本地大模型运行的工具。本地学习、个人知识库、轻量 Agent。
llama.cppC/C++ 实现的大模型推理框架。CPU/GPU 本地推理、GGUF 模型。
Throughput(吞吐量)单位时间内系统能处理的 Token 或请求数量。高并发服务压测。
Latency(延迟)从请求到响应所需时间。聊天体验、实时 Agent。
Tokens per Second每秒生成 Token 数。衡量模型生成速度。
GPU VRAM(显存)GPU 上可用内存,存放模型权重、KV Cache 和中间计算。判断模型能否运行。
Batch Size一次批处理的请求或样本数量。提高吞吐,但会增加显存占用。
Model Serving对外提供模型 API 服务的整体系统。企业大模型平台、Agent 后端。

3. 使用场景

  • 用 Ollama 快速运行本地模型做学习和测试。
  • 用 vLLM 部署高并发模型 API。
  • 通过 INT4/GGUF 在低显存机器上运行模型。
  • 用吞吐和延迟指标评估服务是否满足业务需求。

4. 模型服务架构图

模型服务从客户端请求到推理、流式响应和监控的架构图

5. 学习建议

部署时要同时关注三件事:模型权重占用、KV Cache 占用、并发请求占用。只看模型大小是不够的。

最近更新 6/11/2026, 11:00:42 PM