大模型详细文档
程小虎
大模型详细文档
更新时间:2026-03-27
统计口径:按官网、官方 API 文档、官方博客、官方 GitHub / Hugging Face / Model Card 等公开渠道可查信息整理。
重要说明:
- 你要求的是“各家所有大模型版本”,但对 OpenAI、Google、MiniMax、字节 Seed / 豆包、部分 GLM 商业模型来说,官方并不会公开全部内部版本、灰度版本、下线版本或全部参数规模。因此本文采用“截至当前官方可查的公开模型/版本/系列”口径。
- 参数量仅记录官方明确公开的数据;若官网/API/模型卡未披露,则统一标注为 未公开。
- 对于 ChatGPT / Gemini / Grok / Kimi / 豆包 这类既是产品名、又会映射到底层模型家族的情况,本文会同时写明“产品名 / API 模型名 / 底层模型家族”。
- 文中“B”表示 Billion(十亿)参数;MoE 模型会尽量同时标注 总参数 / 激活参数。
- 本版已按你补充要求,尽量纳入 正式版 / preview / turbo / mini / nano / snapshot / 已下线 / 历史 API ID;并额外标注“确认级别”:官方当前、官方历史、第三方整理、待核验。
目录
- Qwen(阿里巴巴 / 通义千问)
- GLM(智谱 AI / Z.ai)
- Kimi(Moonshot AI / 月之暗面)
- MiniMax
- DeepSeek
- Doubao / Seed(字节跳动 / 火山引擎)
- ChatGPT / OpenAI
- Gemini / Google
- Grok / xAI
- 总览对比
- 按能力维度横向对比表(增强版)
- 国产 / 国外厂商分组精简版
Qwen(阿里巴巴 / 通义千问)
1. Qwen:厂商与命名说明
- 厂商:阿里巴巴 / Qwen Team / 通义千问
- 产品/平台:Qwen Chat、阿里云百炼 / Model Studio 等
- 模型特点:公开模型谱系最完整之一,覆盖文本、推理、代码、视觉、音频、Embedding、Rerank、图像生成、安全模型等
- 开放形态:既有闭源商用 API,也有大量开源 / open-weight 模型
2. Qwen:公开可查的主要模型家族
2.1 Qwen3 文本/推理主系列
| 模型/版本 | 参数规模 | 架构 | 主要能力 | 上下文 | 开源情况 | 备注 |
|---|---|---|---|---|---|---|
| Qwen3-235B-A22B | 235B / 激活22B | MoE | 文本、推理、代码、Agent、工具调用、多语言 | 128K | 开源 | Qwen3 旗舰公开权重 |
| Qwen3-30B-A3B | 30B / 激活3B | MoE | 文本、推理、代码、工具调用 | 128K | 开源 | 小型高效 MoE |
| Qwen3-32B | 32B | Dense | 文本、推理、代码 | 128K | 开源 | 高性能 Dense |
| Qwen3-14B | 14B | Dense | 文本、推理、代码 | 128K | 开源 | 中大尺寸 |
| Qwen3-8B | 8B | Dense | 文本、推理、代码 | 128K | 开源 | 通用主力 |
| Qwen3-4B | 4B | Dense | 文本、推理 | 32K | 开源 | 轻量级 |
| Qwen3-1.7B | 1.7B | Dense | 文本 | 32K | 开源 | 小模型 |
| Qwen3-0.6B | 0.6B | Dense | 文本 | 32K | 开源 | 极轻量 |
2.2 Qwen3 派生版本 / 指令与思考版
| 模型/版本 | 参数规模 | 能力重点 | 是否推理 | 备注 |
|---|---|---|---|---|
| Qwen3-235B-A22B-Instruct-2507 | 235B / 激活22B | 指令跟随、通用对话、代码、工具调用 | 是 | 公开版本命名可见 |
| Qwen3-235B-A22B-Thinking-2507 | 235B / 激活22B | 深度推理、数学、代码 | 是 | Thinking 版 |
| Qwen3-30B-A3B-Instruct-2507 | 30B / 激活3B | 指令跟随、代码、Agent | 是 | |
| Qwen3-30B-A3B-Thinking-2507 | 30B / 激活3B | 深度推理 | 是 | |
| Qwen3-4B-Instruct-2507 | 4B | 轻量指令 | 是 | |
| Qwen3-4B-Thinking-2507 | 4B | 轻量推理 | 是 |
2.3 历史文本主系列
| 系列 | 公开尺寸/版本(官方文档可查) | 主要能力 |
|---|---|---|
| Qwen | 1.8B / 7B / 14B / 72B | 早期基础文本系列 |
| Qwen1.5 | 0.5B / 1.8B / 4B / MoE A2.7B / 7B / 14B / 32B / 72B / 110B | 文本、指令、长上下文演进 |
| Qwen2 | 0.5B / 1.5B / 7B / 57B-A14B / 72B | 文本主系列 |
| Qwen2.5 | 0.5B / 1.5B / 3B / 7B / 14B / 32B / 72B | 文本、推理增强、多语言、长上下文 |
2.4 多模态 / 视觉 / 音频 / 专项模型
| 家族 | 公开版本/尺寸 | 模态 | 备注 |
|---|---|---|---|
| Qwen-VL | 7B 系 | 图像理解 | 早期视觉语言模型 |
| Qwen2-VL | 2B / 7B / 72B | 图像理解、多模态 | 官方文档列出 |
| Qwen3-VL | 公开仓库可见 | 图文理解 | Qwen3 代视觉线 |
| Qwen-Audio | 7B 系 | 音频理解 | 早期音频模型 |
| Qwen2-Audio | 7B 系 | 音频理解/语音 | 官方文档列出 |
| Qwen3-Omni | 未公开 | 文本、图像、音频、视频 | 全模态定位 |
| Qwen3-ASR | 未公开 | 语音识别 | ASR 专项 |
| Qwen3-TTS | 未公开 | 文本转语音 | TTS 专项 |
| Qwen-Image / Qwen-Image-Edit | 未公开 | 图像生成 / 图像编辑 | 生成式图像模型 |
| Qwen3-Embedding | 未公开 | Embedding | 向量检索 |
| Qwen3-Reranker | 未公开 | Rerank | 检索重排 |
| Qwen3Guard | 未公开 | 安全审查 | 内容安全 |
2.5 代码 / 数学 / 推理专项
| 家族 | 公开尺寸/版本 | 能力 |
|---|---|---|
| CodeQwen1.5 | 7B | 代码生成 |
| Qwen2.5-Coder | 0.5B / 1.5B / 3B / 7B / 14B / 32B | 代码生成、代码补全、Agent 编程 |
| Qwen2-Math | 1.5B / 7B / 72B | 数学 |
| Qwen2.5-Math | 1.5B / 7B / 72B | 数学 |
| QwQ-Preview | 32B | 推理 |
| QVQ-Preview | 72B | 视觉推理 |
3. Qwen:参数公开情况
- 公开较充分:Qwen / Qwen1.5 / Qwen2 / Qwen2.5 / Qwen3 大量开源模型均有明确参数规模
- 未完全公开:闭源 API 版 Qwen Max / Plus / Turbo、部分 Qwen3-Omni / Image / Audio / Embedding / Guard 等未披露参数
4. Qwen:能力总结
- 文本:强
- 推理:强(Qwen3 Thinking、QwQ 等)
- 代码:强(Qwen2.5-Coder、Qwen3)
- 图片理解:强(Qwen-VL、Qwen2-VL、Qwen3-VL)
- 图片生成:有
- 音频:有
- 视频理解:有(Qwen3-Omni 路线)
- Embedding / Rerank:有
- 开源生态:很强
5. Qwen:主要来源
- Qwen 官方文档:https://qwen.readthedocs.io/
- Qwen3 官方博客:https://qwenlm.github.io/blog/qwen3/
- Qwen GitHub:https://github.com/QwenLM
- Qwen Hugging Face:https://huggingface.co/Qwen
GLM(智谱 AI / Z.ai)
1. GLM:厂商与命名说明
- 厂商:智谱 AI(Zhipu AI)
- 平台:Z.ai、BigModel / bigmodel.cn
- 模型家族核心命名:GLM-4、GLM-4V、GLM-4.5、GLM-4.6V、GLM-Z1、GLM-5 等
2. GLM:公开可查的主要模型 / 版本谱系(扩展口径)
2.1 GLM-5 系列
这一项是本次重点修正:GLM 不仅有 GLM-5-Turbo,也有 GLM-5 主型号。按当前官方公开页面,GLM-5 系至少可明确确认如下版本名。
| 模型/版本 | 状态 | 确认级别 | 参数规模 | 输入/输出模态 | 上下文 | 备注 |
|---|---|---|---|---|---|---|
| GLM-5 | 正式版 | 官方当前 | 官方文档页未写参数;官方页正文提到从 355B(激活32B)扩展至 744B(激活40B) | 文本 → 文本 | 200K | 新一代旗舰基座模型 |
| glm-5 | API ID | 官方当前 | 未公开 | 文本 → 文本 | 200K | 调用示例中明确出现的 model 字段 |
| GLM-5-Turbo | 正式版 | 官方当前 | 未公开 | 文本 → 文本 | 200K | 面向 OpenClaw / 龙虾场景增强 |
| glm-5-turbo | API ID | 官方当前 | 未公开 | 文本 → 文本 | 200K | 调用示例中明确出现的 model 字段 |
2.2 GLM-4.7 / 4.6 / 4.5 当前文本主线
| 模型/版本 | 状态 | 确认级别 | 参数规模 | 输入/输出模态 | 上下文 | 备注 |
|---|---|---|---|---|---|---|
| GLM-4.7 | 正式版 | 官方当前 | 未公开 | 文本 → 文本 | 官方页面可见 | 当前文档导航明确列出 |
| GLM-4.6 | 正式版 | 官方当前 | 未公开 | 文本 → 文本 | 官方页面可见 | 当前文档导航明确列出 |
| GLM-4.5 | 正式版 | 官方历史/当前公开 | 355B / 激活32B | 文本 → 文本 | 128K | 公开资料较多 |
| GLM-4.5-Air | 正式版 | 官方历史/当前公开 | 106B / 激活12B | 文本 → 文本 | 128K | 轻量路线 |
2.3 GLM-4 / GLM-Z1 / 历史与多模态线
| 模型/版本 | 状态 | 确认级别 | 参数规模 | 主要能力 | 备注 |
|---|---|---|---|---|---|
| GLM-4-32B-Base-0414 | 历史公开版 | 官方历史 | 32B | 文本基础模型 | 开源线 |
| GLM-4-32B-0414 | 历史公开版 | 官方历史 | 32B | 对话、代码、函数调用 | 开源线 |
| GLM-Z1-32B-0414 | 历史公开版 | 官方历史 | 32B | 深度推理、数学、代码 | 开源线 |
| GLM-Z1-Rumination-32B-0414 | 历史公开版 | 官方历史 | 32B | 沉思式研究、搜索工具调用 | 开源线 |
| GLM-4-9B-0414 | 历史公开版 | 官方历史 | 9B | 对话、翻译 | 开源线 |
| GLM-Z1-9B-0414 | 历史公开版 | 官方历史 | 9B | 通用推理、数学 | 开源线 |
| GLM-4-Voice | 正式版 | 官方公开 | 未公开 | 端到端语音对话、ASR、TTS | 语音路线 |
| GLM-4-9B | 历史版 | 官方公开 | 9B | 基础文本 | 历史版本 |
| GLM-4-9B-Chat | 历史版 | 官方公开 | 9B | 对话 | 历史版本 |
| GLM-4-9B-Chat-1M | 历史版 | 官方公开 | 9B | 超长上下文对话 | 1M 上下文 |
| GLM-4V-9B | 历史版 | 官方公开 | 9B | 图像理解 | 历史多模态 |
| GLM-4.6V | 正式版 | 官方公开 | 未公开 | 图像/视频/文本理解、工具调用 | 多模态旗舰 |
| GLM-4.6V-FlashX | 正式版 | 官方公开 | 未公开 | 轻量多模态 | 高速版 |
| GLM-4.6V-Flash | 正式版 | 官方公开 | 未公开 | 多模态 | 免费/轻量定位 |
3. GLM:版本号与命名补充说明
- GLM-5 不是只有 Turbo:当前官方文档中,
GLM-5与GLM-5-Turbo都是独立模型页。 - API ID 与展示名需区分:例如页面标题是
GLM-5-Turbo,但调用时模型 ID 是glm-5-turbo。 - GLM-4.5 → 4.6 → 4.7 → 5 是公开主线演进;但并不意味着所有子系(如视觉、语音、OCR、Agent)都完全同步命名。
- 参数披露不完全一致:有的写在模型介绍正文,有的只在技术报告、模型卡或博客出现,因此本文以“页面明确可查”为主。
4. GLM:能力总结
- 文本:强
- 推理:强(GLM-Z1、GLM-4.5)
- 代码:有
- 图片理解:有(GLM-4V / 4.5V / 4.6V)
- 视频理解:有(4.6V 路线)
- 音频:有(GLM-4-Voice)
- Agent / 工具调用:较强
5. GLM:参数公开情况
- 公开较充分:GLM-4 开源线、GLM-Z1、GLM-4.5、GLM-4.5-Air
- 本次新增明确修正:GLM-5 页面正文已公开“从 355B(激活32B)扩展至 744B(激活40B)”这一档位信息
- 仍未完全公开:GLM-4.6V、GLM-5-Turbo、GLM-4.7 等页面未统一给出完整 B 数表
6. GLM:主要来源
- Z.ai:https://z.ai/
- BigModel:https://bigmodel.cn/
- GLM-5 官方页:https://docs.bigmodel.cn/cn/guide/models/text/glm-5
- GLM-5-Turbo 官方页:https://docs.bigmodel.cn/cn/guide/models/text/glm-5-turbo
- GitHub(GLM-4):https://github.com/zai-org/GLM-4
- Hugging Face(THUDM):https://huggingface.co/THUDM
Kimi(Moonshot AI / 月之暗面)
1. Kimi:厂商与命名说明
- 厂商:Moonshot AI(月之暗面)
- 产品:Kimi
- API 平台:Moonshot / Kimi Open Platform
- 命名特点:早期是
moonshot-v1-*,后期转向kimi-k2*、kimi-k2.5
2. Kimi:公开可查的主要模型 / 版本谱系(扩展口径)
2.1 当前主力模型
| API 模型名 | 状态 | 确认级别 | 参数规模 | 架构 | 上下文 | 主要能力 | 备注 |
|---|---|---|---|---|---|---|---|
| kimi-k2.5 | 正式版 | 官方当前 | 未公开 | 原生多模态 | 256K | 文本、图像理解、视频理解、Agent、代码、推理 | 当前旗舰 |
| kimi-k2-0905-preview | 预览版 | 官方当前 | 1T / 激活32B | MoE | 256K | Agentic Coding、上下文理解、前端代码生成 | K2 重要版本 |
| kimi-k2-0711-preview | 预览版 | 官方当前 | 1T / 激活32B | MoE | 128K | 代码、Agent | 早期 K2 版 |
| kimi-k2-turbo-preview | 预览版 | 官方当前 | 1T / 激活32B | MoE | 256K | 高速推理 | K2 Turbo |
| kimi-k2-thinking | 正式版 | 官方当前 | 1T / 激活32B | MoE | 256K | 长思维推理、多步工具使用 | Thinking 版 |
| kimi-k2-thinking-turbo | 正式版 | 官方当前 | 1T / 激活32B | MoE | 256K | 深度推理 + 高速 | Thinking Turbo |
2.2 moonshot-v1 系列
| API 模型名 | 状态 | 确认级别 | 参数规模 | 上下文 | 模态 | 主要能力 |
|---|---|---|---|---|---|---|
| moonshot-v1-8k | 历史版 / 已下线倾向 | 官方历史 | 未公开 | 8K | 文本 | 短文本生成 |
| moonshot-v1-32k | 历史版 / 已下线倾向 | 官方历史 | 未公开 | 32K | 文本 | 长文本生成 |
| moonshot-v1-128k | 历史版 / 已下线倾向 | 官方历史 | 未公开 | 128K | 文本 | 超长文本 |
| moonshot-v1-8k-vision-preview | 历史预览版 | 官方历史 | 未公开 | 8K | 图像→文本 | 图片理解 |
| moonshot-v1-32k-vision-preview | 历史预览版 | 官方历史 | 未公开 | 32K | 图像→文本 | 图片理解 |
| moonshot-v1-128k-vision-preview | 历史预览版 | 官方历史 | 未公开 | 128K | 图像→文本 | 图片理解 |
2.3 已弃用 / 历史别名
| 名称 | 状态 | 替代 |
|---|---|---|
| kimi-latest | 已弃用 | kimi-k2.5 |
| kimi-thinking-preview | 已弃用 | kimi-k2.5 |
2.4 开源权重
| 名称 | 状态 | 确认级别 | 参数规模 | 开源平台 | 备注 |
|---|---|---|---|---|---|
| Kimi-K2-Base | 开源正式版 | 官方当前 | 1T / 激活32B | Hugging Face / GitHub | 开源检查点 |
| Kimi-K2-Instruct | 开源正式版 | 官方当前 | 1T / 激活32B | Hugging Face / GitHub | 指令版 |
3. Kimi:能力总结
- 文本:强
- 推理:强
- 代码:很强(K2 路线突出)
- 图像理解:有
- 视频理解:有(K2.5)
- Agent:很强
- 开源:部分(K2 开源,K2.5 参数未公开)
4. Kimi:参数公开情况
- 公开:K2 系列 1T 总参数 / 32B 激活
- 未公开:K2.5 参数规模
5. Kimi:主要来源
- Kimi API 文档:https://platform.moonshot.ai/docs/introduction
- Kimi K2.5 博客:https://www.kimi.com/blog/kimi-k2-5
- GitHub:https://github.com/MoonshotAI/Kimi-K2
- Hugging Face:https://huggingface.co/moonshotai
6. Kimi:版本状态与来源说明
preview/thinking/turbo等命名直接沿用官方 API 文档或官方仓库。moonshot-v1-*在当前主宣传中已退居历史位置,本文标作“官方历史”或“历史预览版”。- 对 K2.5 参数量,本文仍按“未公开”处理,不把 K2 的 1T / 激活32B 直接外推到 K2.5。
MiniMax
1. MiniMax:厂商与命名说明
- 厂商:MiniMax
- 模型线覆盖:文本、推理、代码、语音、图像、视频、音乐
- 公开参数透明度:中等偏低,少数模型公开参数
2. MiniMax:公开可查的主要模型 / 版本谱系(扩展口径)
2.1 文本 / 推理主模型
| 模型/版本 | 参数规模 | 上下文 | 主要能力 | 备注 |
|---|---|---|---|---|
| MiniMax-M2.7 | 未公开 | 204,800 | 递归自改进、Agent Teams、复杂任务执行、软件工程 | 当前旗舰 |
| MiniMax-M2.7-highspeed | 未公开 | 204,800 | 高速推理 | 高速版 |
| MiniMax-M2.5 | 未公开 | 204,800 | 代码、工具调用、搜索、办公生产力 | 稳定版 |
| MiniMax-M2.5-highspeed | 未公开 | 204,800 | 低延迟代码/推理 | 高速版 |
| MiniMax-M2.1 | 230B / 激活10B | 204,800 | 多语言编程、代码重构、推理 | 已公开参数 |
| MiniMax-M2.1-highspeed | 230B / 激活10B | 204,800 | 高速推理 | |
| MiniMax-M2 | 未公开 | 200,000 | Agent、函数调用、高级推理 | 历史主线 |
| M2-her | 未公开 | 未公开 | 角色扮演、多轮对话、情感表达 | 特定风格路线 |
| MiniMax-Text-01 | 未公开 | 未公开 | 文本生成 | 早期文本模型 |
| MiniMax-VL-01 | 未公开 | 未公开 | 图文理解 | 早期视觉模型 |
2.2 语音模型
| 模型/版本 | 能力 | 语言支持 | 备注 |
|---|---|---|---|
| speech-2.8-hd | 高保真 TTS / 音色相似度 | 40 种语言 | 新版高清 |
| speech-2.8-turbo | 低延迟 TTS | 40 种语言 | Turbo |
| speech-2.6-hd | 高音质语音 | 40 种语言 | |
| speech-2.6-turbo | 低延迟语音 | 40 种语言 | |
| speech-02-hd | 高保真语音克隆 | 24 种语言 | 早期主力 |
| speech-02-turbo | 低延迟语音 | 24 种语言 |
2.3 视频生成模型
| 模型/版本 | 主要能力 | 输出规格 | 备注 |
|---|---|---|---|
| MiniMax Hailuo 2.3 | 文生视频 / 图生视频 / 物理模拟 | 1080p / 768p,6s/10s | 新版 |
| MiniMax Hailuo 2.3 Fast | 高速图生视频 | 1080p / 768p | Fast |
| MiniMax Hailuo 02 | 高分辨率视频生成 | 1080p / 768p / 512p | 历史版本 |
2.4 图像与音乐模型
| 模型/版本 | 能力 | 备注 |
|---|---|---|
| Image-01 | 文生图 | 图片生成 |
| Music-2.5+ | 音乐生成、乐器增强、跨风格融合 | 最新音乐线 |
| Music-2.5 | 人声与多乐器歌曲生成 | |
| Music-2.0 | 增强音乐性与人声自然度 | |
| Music-1.5 | 最长 4 分钟歌曲生成 |
2.5 开源公开情况
| 名称 | 参数规模 | 状态 |
|---|---|---|
| MiniMax-M2.1 | 230B / 激活10B | 开源可见 |
| MiniMax-M2 | 未公开 | 开源可见 / 参数未公开 |
3. MiniMax:能力总结
- 文本:强
- 推理:强
- 代码:强
- 图片理解:有(VL)
- 图片生成:有
- 音频:强
- 视频生成:强
- 音乐生成:有特色
4. MiniMax:参数公开情况
- 公开:M2.1(230B / 10B 激活)
- 未公开:M2.7、M2.5、M2、Image、Hailuo、多数语音/音乐模型
5. MiniMax:主要来源
- MiniMax 模型文档:https://platform.minimax.io/docs/guides/models-intro
- 发布日志:https://platform.minimax.io/docs/release-notes/models
- 官方博客:https://www.minimax.io/news/
- Hugging Face:https://huggingface.co/MiniMaxAI
DeepSeek
1. DeepSeek:厂商与命名说明
- 厂商:DeepSeek
- 产品/API:DeepSeek API、DeepSeek APP / Web
- 命名特点:API 侧常用
deepseek-chat/deepseek-reasoner,底层对应 V3.x / R1 等模型线 - 透明度:参数公开程度较高,尤其是 V2/V3/R1 开源体系
2. DeepSeek:公开可查的主要模型 / 版本谱系(扩展口径)
2.1 当前 API 主力
| API 模型名 | 对应模型 | 参数规模 | 上下文 | 主要能力 | 备注 |
|---|---|---|---|---|---|
| deepseek-chat | DeepSeek-V3.2(Non-thinking) | 未公开 | 128K | 文本、工具调用、JSON 输出 | 当前 API 主力 |
| deepseek-reasoner | DeepSeek-V3.2(Thinking) | 未公开 | 128K | 深度推理、工具调用、JSON 输出 | 推理主力 |
2.2 V3 系列
| 模型/版本 | 参数规模 | 架构 | 上下文 | 能力 |
|---|---|---|---|---|
| DeepSeek-V3-Base | 671B / 激活37B | MoE | 128K | 文本基础模型 |
| DeepSeek-V3 | 671B / 激活37B | MoE | 128K | 通用对话 |
| DeepSeek-V3.1 | 671B / 激活37B | MoE | 128K | V3 更新版 |
| DeepSeek-V3.2 | 未公开 | MoE | 128K | 当前 API 对应版本 |
| DeepSeek-V3.2-Speciale | 未公开 | MoE | 128K | 更偏推理 / API-only |
2.3 R1 推理系列
| 模型/版本 | 参数规模 | 架构 | 上下文 | 能力 |
|---|---|---|---|---|
| DeepSeek-R1-Zero | 671B / 激活37B | MoE | 128K | 纯 RL 推理 |
| DeepSeek-R1 | 671B / 激活37B | MoE | 128K | 深度推理、数学、代码 |
| DeepSeek-R1-0528 | 671B / 激活37B | MoE | 128K | R1 更新版 |
2.4 蒸馏模型
| 模型/版本 | 参数规模 | 基底 | 能力 |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | Qwen | 推理蒸馏 |
| DeepSeek-R1-Distill-Qwen-7B | 7B | Qwen | 推理蒸馏 |
| DeepSeek-R1-Distill-Llama-8B | 8B | Llama | 推理蒸馏 |
| DeepSeek-R1-Distill-Qwen-14B | 14B | Qwen | 推理蒸馏 |
| DeepSeek-R1-Distill-Qwen-32B | 32B | Qwen | 推理蒸馏 |
| DeepSeek-R1-Distill-Llama-70B | 70B | Llama | 推理蒸馏 |
2.5 历史版本
| 模型/版本 | 参数规模 | 备注 |
|---|---|---|
| DeepSeek-V2 | 236B / 激活21B | 历史主力 |
| DeepSeek-V2.5 | 236B / 激活21B | V2 增强版 |
| DeepSeek-R1-Lite | 未公开 | 早期 R1 路线 |
3. DeepSeek:能力总结
- 文本:强
- 推理:很强(R1)
- 代码:强
- 图片理解:当前公开主线以文本为主
- 图像生成:公开主线未见
- 音频:公开主线未见
- 开源:极强
4. DeepSeek:参数公开情况
- 公开充分:V2、V2.5、V3、R1、蒸馏模型
- 未公开:V3.2、V3.2-Speciale 等新 API 层版本的精确参数
5. DeepSeek:主要来源
- DeepSeek API 文档:https://api-docs.deepseek.com/
- DeepSeek-V3 GitHub:https://github.com/deepseek-ai/DeepSeek-V3
- DeepSeek-R1 GitHub:https://github.com/deepseek-ai/DeepSeek-R1
- Hugging Face:https://huggingface.co/deepseek-ai
Doubao / Seed(字节跳动 / 火山引擎)
1. 豆包 / Seed:厂商与命名说明
- 厂商:字节跳动(ByteDance)/ Seed 团队 / 火山引擎
- 产品名:豆包(Doubao)
- 底层模型族:Seed / Doubao-Seed / 火山方舟 API 模型 ID
- 特点:多模态、Agent、代码能力强,但参数公开透明度较低
2. 豆包 / Seed:公开可查的主要模型 / 版本谱系(扩展口径)
2.1 Seed 2.0 系列
| 模型/版本 | API 模型 ID | 参数规模 | 上下文 | 模态 | 主要能力 |
|---|---|---|---|---|---|
| Seed 2.0 Pro | doubao-seed-2-0-pro | 未公开 | 未公开 | 文本+图像+视频 | 旗舰推理、多模态、Agent |
| Seed 2.0 Lite | doubao-seed-2-0-lite | 未公开 | 未公开 | 文本+图像+视频 | 均衡通用 |
| Seed 2.0 Mini | seed-2-0-mini-260215 | 未公开 | 256K | 文本+图像+视频 | 高并发轻量模型 |
| Seed 2.0 Code | doubao-seed-code-* | 未公开 | 未公开 | 文本 | 代码专项 |
2.2 历史 / 早期版本
| 模型/版本 | 参数规模 | 模态 | 备注 |
|---|---|---|---|
| Doubao-Seed-1.8 | 未公开 | 文本+图像 | Seed 2.0 上一代 |
| Doubao-Pro | 未公开 | 文本 | 早期版本 |
| Doubao-Lite | 未公开 | 文本 | 早期轻量版 |
3. 豆包 / Seed:能力总结
- 文本:强
- 推理:强
- 代码:有(Seed 2.0 Code)
- 图片理解:有
- 视频理解:有
- Agent:强
- 开源:基本闭源
4. 豆包 / Seed:参数公开情况
- 总体未公开:Seed 2.0 Pro / Lite / Mini / Code 均未公开具体 B 数
5. 豆包 / Seed:主要来源
- Seed 官网:https://seed.bytedance.com/en/seed2
- Seed Model Card:https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf
- 火山引擎 / 方舟平台:https://console.volcengine.com/ark/
ChatGPT / OpenAI
1. OpenAI:厂商与命名说明
- 厂商:OpenAI
- ChatGPT 是产品名,不等于单一模型名
- ChatGPT 背后会根据套餐、场景、时间点调用 GPT / o 系列 / 图像 / 语音 / 视频等不同模型
- OpenAI 的特点是:模型能力公开很多,参数规模几乎从不公开
2. OpenAI:公开可查的主要模型 / 版本谱系(扩展口径)
2.1 GPT-5 主线(本次重点修正)
这一项是本次重点修正:OpenAI 确实有 GPT-5.1 与 GPT-5.2 的官方模型页;当前未查到官方
GPT-5.3页面,因此不能写成已确认存在。
| 模型/版本 | 状态 | 确认级别 | 输入/输出模态 | 主要能力 | 上下文 | 备注 |
|---|---|---|---|---|---|---|
| gpt-5 | 正式版 | 官方当前 | 文本、图像 → 文本 | 通用旗舰 | 400K | 主型号 |
| gpt-5-2025-08-07 | 快照 | 官方当前 | 文本、图像 → 文本 | 快照版本 | 400K | 官方 snapshots 列表可见 |
| gpt-5-mini | 正式版 | 官方当前 | 文本、图像 → 文本 | 低成本版 | 400K | 主型号子线 |
| gpt-5-mini-2025-08-07 | 快照 | 官方当前 | 文本、图像 → 文本 | 快照版本 | 400K | |
| gpt-5-nano | 正式版 | 官方当前 | 文本、图像 → 文本 | 超轻量版 | 400K | |
| gpt-5-nano-2025-08-07 | 快照 | 官方当前 | 文本、图像 → 文本 | 快照版本 | 400K | |
| gpt-5.1 | 正式版 | 官方当前 | 文本、图像 → 文本 | 编码与 agentic tasks | 400K | 你指出的漏项,现已补入 |
| gpt-5.1-2025-11-13 | 快照 | 官方当前 | 文本、图像 → 文本 | 快照版本 | 400K | 官方 snapshots 列表可见 |
| gpt-5.2 | 已被后续版本取代 | 官方当前 | 文本、图像 → 文本 | previous frontier model | 400K | 官方页明确写 previous frontier |
| gpt-5.2-2025-12-11 | 快照 | 官方当前 | 文本、图像 → 文本 | 快照版本 | 400K | |
| gpt-5.4 | 当前旗舰 | 官方当前 | 文本、图像 → 文本 | 复杂推理、编码、Agent、工具调用 | 1M | 当前 docs 推荐优先使用 |
| gpt-5.4-2026-03-05 | 快照 | 官方当前 | 文本、图像 → 文本 | 快照版本 | 1M | |
| gpt-5.4-mini | 正式版 | 官方当前 | 文本、图像 → 文本 | 低成本 / 子智能体 / 编码 | 400K | |
| gpt-5.4-mini-2026-03-17 | 快照 | 官方当前 | 文本、图像 → 文本 | 快照版本 | 400K | |
| gpt-5.4-nano | 正式版 | 官方当前 | 文本、图像 → 文本 | 高并发轻量任务 | 官方公开页可见 | 当前已公开命名 |
2.2 GPT-5.x 缺失版本说明
| 版本号 | 结论 | 说明 |
|---|---|---|
| GPT-5.1 | 已确认存在 | 官方模型页可直接访问 |
| GPT-5.2 | 已确认存在 | 官方模型页可直接访问,且已被后续版本替代 |
| GPT-5.3 | 未查到官方公开模型页 | 当前不能按已确认版本写入正文,只能标注为“未查到官方公开证据” |
| GPT-5.4 | 已确认存在 | 当前旗舰 |
2.3 其他通用模型主线
| 模型/版本 | 状态 | 确认级别 | 输入/输出模态 | 主要能力 | 上下文 |
|---|---|---|---|---|---|
| gpt-4.1 | 正式版 | 官方当前 | 文本、图像 → 文本 | 长上下文、编码、指令跟随 | 1M |
| gpt-4.1-mini | 正式版 | 官方当前/公开文档可查 | 文本、图像 → 文本 | 成本优化版 | 1M |
| gpt-4.1-nano | 正式版 | 官方当前/公开文档可查 | 文本、图像 → 文本 | 超轻量 | 1M |
| gpt-4o | 正式版 | 官方当前 | 文本、图像、音频 → 文本/音频 | Omni 多模态 | 128K |
| gpt-4o-2024-05-13 | 快照 | 官方当前 | 文本、图像、音频 → 文本/音频 | 快照版本 | 128K |
| gpt-4o-2024-08-06 | 快照 | 官方当前 | 文本、图像、音频 → 文本/音频 | 快照版本 | 128K |
| gpt-4o-2024-11-20 | 快照 | 官方当前 | 文本、图像、音频 → 文本/音频 | 快照版本 | 128K |
| gpt-4o-mini | 正式版 | 官方当前/公开文档可查 | 文本、图像 → 文本 | 低成本多模态 | 128K |
2.4 推理模型(o 系列)
| 模型/版本 | 状态 | 确认级别 | 模态 | 主要能力 | 上下文 |
|---|---|---|---|---|---|
| o3 | 正式版 | 官方当前 | 文本、图像 → 文本 | 高级推理、代码、数学、视觉分析 | 200K |
| o3-pro | 正式版 | 官方公开 | 文本、图像 → 文本 | 更长思考、更高质量推理 | 200K |
| o4-mini | 正式版 | 官方当前 | 文本、图像 → 文本 | 轻量级推理 | 200K |
| o1 | 历史/仍公开可见 | 官方公开 | 文本、图像 → 文本 | 早期推理模型 | 公开资料可见 |
| o1-preview | 历史版 | 官方历史 | 文本 → 文本 | 预览推理模型 | 官方 deprecations 可见 |
| o1-mini | 历史版 | 官方历史 | 文本 → 文本 | 轻量推理模型 | 官方 deprecations 可见 |
| o3-mini | 历史/公开可见 | 官方公开 | 文本 → 文本 | 轻量推理 | 官方公开资料可见 |
2.5 专项模型
| 模型/版本 | 状态 | 确认级别 | 模态 | 能力 |
|---|---|---|---|---|
| gpt-image-1 | 正式版 | 官方当前 | 文本/图像 → 图像 | 图像生成 / 编辑 |
| gpt-image-1.5 | 正式版 | 官方当前/公开资料可见 | 文本/图像 → 图像 | 图像生成 / 编辑 |
| gpt-image-1-mini | 正式版 | 官方公开 | 文本/图像 → 图像 | 轻量图像生成 |
| gpt-realtime-1.5 | 正式版 | 官方当前/公开资料可见 | 音频 ↔ 音频 / 文本 | 实时语音交互 |
| gpt-realtime-mini | 正式版 | 官方公开 | 音频 ↔ 音频 / 文本 | 轻量实时语音 |
| gpt-4o-mini-tts | 正式版 | 官方当前/公开资料可见 | 文本 → 音频 | 语音合成 |
| gpt-4o-transcribe | 正式版 | 官方当前/公开资料可见 | 音频 → 文本 | 语音转写 |
| gpt-4o-mini-transcribe | 正式版 | 官方当前/公开资料可见 | 音频 → 文本 | 轻量转写 |
| text-embedding-* / embeddings 路线 | 持续更新 | 官方公开 | 文本 → 向量 | Embedding |
| text-moderation-* | 持续更新 | 官方公开 | 文本/图像输入审查 | 安全审核 |
| Sora(视频) | 正式公开产品线 | 官方公开 | 文本/图像 → 视频 | 视频生成 |
3. OpenAI:ChatGPT 与底层模型关系
| 产品名 | 实际含义 |
|---|---|
| ChatGPT | OpenAI 的聊天产品 / 前端,不是单一模型 |
| ChatGPT 中的“默认模型” | 可能随套餐与时间切换到 GPT-5.x、GPT-4.x、o 系列等 |
| ChatGPT 图像/语音/视频功能 | 通常分别调用图像、实时语音、视频相关专用模型 |
4. OpenAI:参数公开情况
- 几乎全部未公开
- GPT-4 / GPT-4o / GPT-5.x / o 系列 / Sora 等官方均未给出 B 数
5. OpenAI:版本号补充说明
- OpenAI 的 GPT-5.x 版本号不是连续全公开的。
- 当前已直接确认:
gpt-5、gpt-5.1、gpt-5.2、gpt-5.4及其部分快照。 - 当前未查到
gpt-5.3的官方公开模型页,因此本文不把它写成“已确认存在”。 - OpenAI 模型页通常会同时给出:别名(alias)+ 快照(snapshot),例如
gpt-5.1与gpt-5.1-2025-11-13。
6. OpenAI:能力总结
- 文本:强
- 推理:很强(o3 / GPT-5.4)
- 代码:很强
- 图片理解:强
- 图片生成:强
- 音频:强
- 视频:有(Sora)
- Embedding / Moderation:有
7. OpenAI:主要来源
- OpenAI 模型页:https://platform.openai.com/docs/models
- GPT-5.1:https://platform.openai.com/docs/models/gpt-5.1
- GPT-5.2:https://platform.openai.com/docs/models/gpt-5.2
- OpenAI 开发者文档:https://developers.openai.com/api/docs/models
- OpenAI Pricing:https://openai.com/api/pricing/
- OpenAI Blog:https://openai.com/index/
Gemini / Google
1. Gemini:厂商与命名说明
- 厂商:Google / Google DeepMind
- 产品/平台:Gemini、Google AI Studio、Vertex AI
- Gemini 也是产品与模型家族双重名称
- 与 OpenAI 类似:能力公开较多,参数规模基本不公开
2. Gemini:公开可查的主要模型 / 版本谱系(扩展口径)
2.1 主力 Gemini 模型
| 模型/版本 | 状态 | 确认级别 | 参数规模 | 模态 | 主要能力 | 上下文 | 备注 |
|---|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | 正式版 | 官方当前 | 未公开 | 文本、图像、音频、视频 → 文本 | 最强思考模型、代码、数学、STEM、长上下文分析 | 1M | 主力旗舰 |
| Gemini 2.5 Flash | 正式版 | 官方当前 | 未公开 | 文本、图像、视频 → 文本 | 快速、低延迟、多模态 | 1M | 主力 |
| Gemini 2.5 Flash-Lite Preview | 预览版 | 官方当前 | 未公开 | 文本、图像 → 文本 | 更轻量、更便宜 | 官方文档可见 | 预览/过渡 |
| Gemini 2.5 Flash Image(Nano Banana) | 预览 / 专项路线 | 官方当前/公开资料可见 | 未公开 | 文本、图像 → 图像/编辑 | 高速视觉生成与编辑 | - | 图像生成 |
| Gemini 2.0 Flash | 正式版 | 官方当前 | 未公开 | 文本、图像 → 文本 | 快速通用多模态 | 1M | 历史主线仍常见 |
| Gemini 2.0 Flash-Lite | 正式版 | 官方当前 | 未公开 | 文本、图像 → 文本 | 轻量级 | 官方文档可见 | 历史/轻量 |
| Gemini 1.5 Pro | 历史正式版 | 官方历史/官方公开 | 未公开 | 文本、图像、音频、视频 → 文本 | 超长上下文、多模态分析 | 2M | 历史旗舰 |
| Gemini 1.5 Flash | 历史正式版 | 官方历史/官方公开 | 未公开 | 文本、图像 → 文本 | 快速轻量多模态 | 1M | 历史主线 |
2.2 新预览 / 实时能力路线(官方文档可见)
| 模型/版本 | 状态 | 确认级别 | 参数规模 | 能力 |
|---|---|---|---|---|
| Gemini 3.1 Pro Preview | 预览版 | 官方当前/公开资料可见 | 未公开 | 新一代预览旗舰 |
| Gemini 3.1 Flash / Flash-Lite Preview | 预览版 | 官方当前/公开资料可见 | 未公开 | 低延迟新代预览 |
| Gemini 2.5 Flash Live Preview | 预览版 | 官方当前/公开资料可见 | 未公开 | 实时语音/视频交互 |
| Gemini 2.5 Computer Use Preview | 预览版 | 官方当前/公开资料可见 | 未公开 | 计算机使用 / Agent UI 操作 |
2.3 专项模型
| 模型/版本 | 状态 | 确认级别 | 参数规模 | 类型 | 能力 |
|---|---|---|---|---|---|
| text-embedding-004 等 Embedding 路线 | 正式版 | 官方公开 | 未公开 | Embedding | 文本向量 |
| Imagen 系列 | 正式版 / 预览版并存 | 官方公开 | 未公开 | 图像生成 | 文生图 |
| Veo 系列(若平台开放) | 正式版 / 预览版并存 | 官方公开 | 未公开 | 视频生成 | 文生视频 |
| Gemma 系列 | 开源正式版 | 官方公开 | 不同尺寸公开 | 开源权重系列 | Google 开源模型线(与 Gemini 商业线不同) |
3. Gemini:参数公开情况
- Gemini 商业系列参数基本未公开
- 如果你要找“Gemini 多少 B”,Google 官方通常不给出
- Google 公开参数更多出现在 Gemma 开源系列,而不是 Gemini 商业系列
4. Gemini:能力总结
- 文本:强
- 推理:很强(2.5 Pro)
- 代码:强
- 图片理解:强
- 图片生成:有(Flash Image / Imagen)
- 音频:有
- 视频理解:有
- 视频生成:有(平台侧)
- Embedding:有
5. Gemini:主要来源
- Gemini 模型总览:https://ai.google.dev/gemini-api/docs/models
- Gemini 2.5 Pro:https://ai.google.dev/gemini-api/docs/models/gemini-2.5-pro
- Gemini 2.0 Flash:https://ai.google.dev/gemini-api/docs/models/gemini-2.0-flash
- Gemini API 更新日志:https://ai.google.dev/gemini-api/docs/changelog
- Google DeepMind / Developers Blog:https://deepmind.google/blog/
6. Gemini:版本状态与来源说明
- Gemini 的很多版本会同时出现在 AI Studio / Gemini API / Vertex AI 三套文档体系里,命名和开放节奏可能不完全同步。
- 本文把能在官方模型总览、官方 changelog 或官方产品页见到的版本列为“官方当前”或“官方公开”。
- 对
Preview、Live Preview、Computer Use Preview等,统一按“预览版”处理,不把它们写成稳定 GA 版本。
Grok / xAI
你原消息里写的是 “Gork”,这里按 xAI 的 Grok 理解。
1. Grok:厂商与命名说明
- 厂商:xAI
- 产品/模型名:Grok
- 特点:Grok-1 开源且公开了参数;后续 Grok-3 / 4 / 4.1 / 4.20 等能力更强,但参数未公开
2. Grok:公开可查的主要模型 / 版本谱系(扩展口径)
2.1 文本 / 推理主模型
| 模型/版本 | 状态 | 确认级别 | 参数规模 | 模态 | 主要能力 | 上下文 |
|---|---|---|---|---|---|---|
| Grok-1 | 历史正式版 / 开源 | 官方历史 | 314B | 文本 → 文本 | 基础对话 | 8K |
| Grok-3 | 历史主线 | 官方公开/历史资料可见 | 未公开 | 文本、图像 → 文本 | 推理、视觉、Agent | 官方公开版本线 |
| Grok-4 | 正式版 | 官方公开/历史资料可见 | 未公开 | 文本、图像 → 文本 | 旗舰推理、多任务 | 1M |
| Grok-4 Fast | 正式版 | 官方公开/历史资料可见 | 未公开 | 文本、图像 → 文本 | 高速高效 | 1M |
| grok-4-1-fast-reasoning | 正式版 | 官方当前 | 未公开 | 文本、图像 → 文本 | 快速推理 | 2M |
| grok-4-1-fast-non-reasoning | 正式版 | 官方当前 | 未公开 | 文本、图像 → 文本 | 通用多模态 | 2M |
| grok-4.20-0309-reasoning | 正式版 / 快照式命名 | 官方当前 | 未公开 | 文本、图像 → 文本 | 推理、函数调用、结构化输出 | 2M |
| grok-4.20-0309-non-reasoning | 正式版 / 快照式命名 | 官方当前 | 未公开 | 文本、图像 → 文本 | 函数调用、结构化输出 | 2M |
| grok-4.20-multi-agent-0309 | 正式版 / 快照式命名 | 官方当前 | 未公开 | 文本、图像 → 文本 | 原生多智能体 | 2M |
2.2 生成模型
| 模型/版本 | 状态 | 确认级别 | 参数规模 | 模态 | 能力 |
|---|---|---|---|---|---|
| grok-imagine-image | 正式版 | 官方当前 | 未公开 | 文本/图像 → 图像 | 文生图 / 图像生成 |
| grok-imagine-image-pro | 正式版 | 官方当前 | 未公开 | 文本/图像 → 图像 | 高质量图像生成 |
| grok-imagine-video | 正式版 | 官方当前 | 未公开 | 文本/图像/视频 → 视频 | 视频生成 |
3. Grok:参数公开情况
- 公开:Grok-1 = 314B(MoE,官方开源时披露)
- 未公开:Grok-3、Grok-4、Grok-4.1、Grok-4.20、Imagine 系列
4. Grok:能力总结
- 文本:强
- 推理:强
- 代码:有
- 图片理解:有
- 图片生成:有
- 视频生成:有
- 多智能体:有
5. Grok:主要来源
- xAI 模型文档:https://docs.x.ai/developers/models
- xAI News:https://x.ai/news/
- Grok-1 GitHub:https://github.com/xai-org/grok-1
6. Grok:版本状态与来源说明
- xAI 当前文档里常把版本写成类似
grok-4.20-0309-*这种带日期/批次特征的命名,本文将其视为“快照式命名”而非传统-latest样式。 Grok-3、Grok-4、Grok-4 Fast更多出现在官方公开发布口径或站内公开资料中;对 API 文档里直接出现的grok-4-1-*、grok-4.20-*,本文标作“官方当前”。- 仅
Grok-1有较明确的公开参数规模,后续主线继续按“未公开”处理。
总览对比
1. 参数透明度对比
| 厂商 | 参数透明度 | 备注 |
|---|---|---|
| Qwen | 很高 | 大量开源权重,尺寸披露充分 |
| GLM | 中等 | 开源线较清晰,商业线不透明 |
| Kimi | 中等 | K2 参数公开,K2.5 未公开 |
| MiniMax | 较低 | 仅少数模型公开参数 |
| DeepSeek | 很高 | V2/V3/R1 系列公开较充分 |
| Doubao / Seed | 很低 | 多数参数未公开 |
| OpenAI | 很低 | 几乎不公开参数规模 |
| Google Gemini | 很低 | Gemini 商业线基本不公开参数 |
| xAI Grok | 较低 | 仅 Grok-1 明确公开 314B |
2. 开源程度对比
| 厂商 | 开源程度 |
|---|---|
| Qwen | 很高 |
| GLM | 高 |
| Kimi | 中等 |
| MiniMax | 中低 |
| DeepSeek | 很高 |
| Doubao / Seed | 低 |
| OpenAI | 低 |
| Google Gemini | 低(Gemma 另算) |
| xAI Grok | 中低(仅部分开源) |
3. 多模态覆盖对比(公开口径)
| 厂商 | 文本 | 推理 | 代码 | 图片理解 | 图片生成 | 音频 | 视频理解/生成 | Embedding/Rerank |
|---|---|---|---|---|---|---|---|---|
| Qwen | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| GLM | ✓ | ✓ | ✓ | ✓ | - | ✓ | ✓ | 未突出公开 |
| Kimi | ✓ | ✓ | ✓ | ✓ | - | 未突出公开 | ✓ | 未突出公开 |
| MiniMax | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | 未突出公开 |
| DeepSeek | ✓ | ✓ | ✓ | - | - | - | - | 未突出公开 |
| Doubao / Seed | ✓ | ✓ | ✓ | ✓ | 未突出公开 | 未突出公开 | ✓ | 未突出公开 |
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Gemini | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Grok | ✓ | ✓ | ✓ | ✓ | ✓ | 未突出公开 | ✓ | 未突出公开 |
4. 结论
如果你最关心:
- 开源与参数透明度:优先看 Qwen、DeepSeek、GLM
- Agent / 代码能力:优先看 Kimi、Qwen、OpenAI、DeepSeek、MiniMax
- 原生多模态覆盖:优先看 Gemini、OpenAI、Qwen、Doubao/Seed、MiniMax
- 公开可查参数最少:OpenAI、Gemini、Doubao/Seed
附:阅读建议
如果你后面还要继续做选型,我建议下一步把这份文档再拆成三份补充材料:
- 按“闭源 API 选型”排序:价格、上下文、延迟、工具调用、稳定性
- 按“开源部署”排序:参数规模、显存需求、推理框架支持
- 按“多模态能力”排序:图像理解、图像生成、语音、视频、实时交互
如果你要,我下一步可以继续帮你基于这份文档再生成一版:
- 《大模型选型对比表(可直接汇报)》
- 或 《大模型 API 价格 / 能力 / 上下文横向对比表》
按能力维度横向对比表(增强版)
说明:本节用于“横向选型”而非替代前文详细目录。为了可读性,按厂商当前主力公开系列归纳,不逐条展开全部历史版本。表中“强 / 有 / 弱 / 未公开”表示公开资料下的相对能力覆盖,不等于绝对榜单排名。
1. 厂商主力模型横向总表
| 厂商 | 当前主力公开系列(概括) | 文本 | 推理 | 代码 | 图片理解 | 图片生成 | 音频 | 视频 | Agent / 工具调用 | Embedding / Rerank | 上下文公开情况 | 参数公开情况 | 开源程度 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Qwen | Qwen3、Qwen2.5、Qwen-VL、Qwen3-Omni、Qwen-Image | 强 | 强 | 强 | 强 | 有 | 有 | 有 | 强 | 有 | 较充分(32K / 128K 等) | 高 | 很高 |
| GLM | GLM-4、GLM-Z1、GLM-4.5、GLM-4.6V、GLM-5-Turbo | 强 | 强 | 有 | 强 | 弱 / 未突出公开 | 有 | 有 | 强 | 未突出公开 | 较充分(含 1M 个别型号) | 中等 | 高 |
| Kimi | kimi-k2.5、kimi-k2 系列、moonshot-v1 | 强 | 强 | 很强 | 有 | 未突出公开 | 未突出公开 | 有 | 很强 | 未突出公开 | 较充分(128K / 256K) | 中等 | 中等 |
| MiniMax | M2.x、Text-01、VL-01、Speech、Hailuo、Image、Music | 强 | 强 | 有 | 强 | 强 | 强 | 强 | 有 | 未突出公开 | 部分公开 | 较低 | 中低 |
| DeepSeek | DeepSeek-V3.x、R1、蒸馏模型 | 强 | 很强 | 强 | 弱 / 无公开主线 | 无 | 无 | 无 | 强 | 未突出公开 | 较充分(128K) | 高 | 很高 |
| Doubao / Seed | Seed 2.0 Pro/Lite/Mini/Code、历史 Doubao 系列 | 强 | 强 | 强 | 有 | 未突出公开 | 未突出公开 | 有 | 强 | 未突出公开 | 部分公开 | 很低 | 低 |
| OpenAI | GPT-5.4、GPT-4.1、GPT-4o、o3/o4、Realtime/Image/Sora | 强 | 很强 | 强 | 强 | 强 | 强 | 强 | 强 | 强 | 很充分(1M / 400K / 200K / 128K) | 很低 | 低 |
| Gemini | Gemini 2.5 / 2.0 / 1.5、Imagen、Veo、Embedding | 强 | 强 | 强 | 强 | 强 | 强 | 强 | 强 | 强 | 很充分(官方持续更新) | 很低 | 低(Gemma 另算) |
| Grok | Grok-4 / 4.1 / 4.20、grok-imagine-* | 强 | 强 | 强 | 有 | 强 | 未突出公开 | 强 | 强 | 未突出公开 | 很充分(2M 等) | 较低 | 中低 |
2. 按单项能力看,优先关注哪些厂商
| 能力维度 | 第一梯队(公开口径) | 第二梯队 | 备注 |
|---|---|---|---|
| 通用文本 | OpenAI、Gemini、Qwen、DeepSeek | GLM、Kimi、MiniMax、Grok、Doubao/Seed | 几乎所有头部厂商都已具备高水平文本能力 |
| 深度推理 | OpenAI、DeepSeek、Qwen、GLM、Kimi | Gemini、Grok、MiniMax、Doubao/Seed | DeepSeek、Qwen、GLM 在公开参数透明度上更有优势 |
| 代码 / Agentic Coding | Kimi、Qwen、OpenAI、DeepSeek | GLM、Gemini、MiniMax、Grok、Doubao/Seed | Kimi K2 路线在 Agentic Coding 定位上很突出 |
| 图片理解 | Gemini、OpenAI、Qwen、GLM、MiniMax | Doubao/Seed、Kimi、Grok | DeepSeek 当前公开主线不以视觉见长 |
| 图片生成 | OpenAI、Gemini、MiniMax、Grok、Qwen | 其它厂商公开较少 | 字节 Seed 公开资料里有多模态/视频,但图像生成型号披露不如前几家清晰 |
| 音频 / 语音 | OpenAI、Gemini、MiniMax、Qwen、GLM | 其它厂商公开较少 | MiniMax 在语音产品线公开命名最丰富之一 |
| 视频理解 / 生成 | Gemini、OpenAI、MiniMax、Grok、Qwen | GLM、Kimi、Doubao/Seed | 不同厂商有的偏理解,有的偏生成 |
| Embedding / 检索 | OpenAI、Gemini、Qwen | 其余厂商公开较少 | 公开型号和官方文档透明度差异较大 |
| 开源部署 | Qwen、DeepSeek、GLM | Kimi(部分) | OpenAI / Gemini / Doubao 商业线基本不走开源路线 |
| 参数透明度 | Qwen、DeepSeek、GLM | Kimi、xAI | OpenAI、Gemini、Doubao/Seed 最不透明 |
3. 如果按典型使用场景选型
| 场景 | 更适合优先关注的厂商 | 原因 |
|---|---|---|
| 企业内部知识库 / RAG | OpenAI、Gemini、Qwen | Embedding、长上下文、工具调用与生态较成熟 |
| 本地私有化部署 | Qwen、DeepSeek、GLM | 开源权重多,参数规模公开度高,部署资料丰富 |
| AI 编程 / 智能体开发 | Kimi、Qwen、OpenAI、DeepSeek | 代码与 Agent 能力路线最清晰 |
| 多模态助手 | Gemini、OpenAI、Qwen、MiniMax | 图像、语音、视频覆盖相对完整 |
| 国内商业 API 集成 | Qwen、GLM、Kimi、MiniMax、Doubao/Seed、DeepSeek | 国内接入便利、服务链路成熟 |
| 海外前沿闭源能力 | OpenAI、Gemini、xAI | 新模型迭代快,上下文和多模态规格公开较积极 |
国产 / 国外厂商分组精简版
说明:本节是“汇报版 / 速览版”。只保留每家最关键的定位、代表型号、参数公开度和适用场景,方便你后续复制到汇报材料、周报、方案 PPT 里。
1. 国产厂商(中国大陆背景)
| 厂商 | 代表模型/系列 | 主要强项 | 参数公开度 | 开源情况 | 一句话结论 |
|---|---|---|---|---|---|
| Qwen(阿里) | Qwen3、Qwen2.5、Qwen-VL、Qwen3-Omni、Qwen-Image | 通用、推理、代码、多模态、开源生态 | 很高 | 很高 | 国内最全能、最透明、最适合兼顾商用与开源部署的模型家族之一 |
| GLM(智谱) | GLM-4、GLM-Z1、GLM-4.5、GLM-4.6V、GLM-5-Turbo | 通用、推理、Agent、多模态 | 中等 | 高 | 推理与 Agent 能力突出,开源线清晰,商业线更新快 |
| Kimi(月之暗面) | kimi-k2.5、kimi-k2、moonshot-v1 | 长上下文、代码、Agentic Coding | 中等 | 中等(部分) | 在代码和智能体场景辨识度非常高,适合复杂任务执行类应用 |
| MiniMax | M2.x、Speech、Hailuo、Image、Music | 多模态产品线丰富,语音/视频突出 | 较低 | 中低 | 更像“全模态产品矩阵型”厂商,语音、视频和内容生成覆盖广 |
| DeepSeek | V3、R1、V3.2、蒸馏系列 | 推理、代码、开源、性价比 | 很高 | 很高 | 最适合强调推理能力、参数透明度与开源部署的路线之一 |
| Doubao / Seed(字节) | Seed 2.0 Pro/Lite/Mini/Code、Doubao 系列 | 通用、多模态、企业平台能力 | 很低 | 低 | 商业化和平台化能力强,但参数与内部细节公开较少 |
国产阵营简要判断
- 如果你要 开源 + 可私有化 + 参数透明:优先看 Qwen、DeepSeek、GLM
- 如果你要 AI 编程 / 智能体任务执行:优先看 Kimi、Qwen、DeepSeek、GLM
- 如果你要 语音 / 视频 / 多模态产品矩阵:优先看 MiniMax、Qwen、Doubao/Seed、GLM
- 如果你要 国内商业 API 快速接入:这 6 家都能看,但透明度差异很大
2. 国外厂商(海外背景)
| 厂商 | 代表模型/系列 | 主要强项 | 参数公开度 | 开源情况 | 一句话结论 |
|---|---|---|---|---|---|
| OpenAI | GPT-5.4、GPT-4.1、GPT-4o、o3/o4、Realtime、Image、Sora | 通用、推理、代码、音频、图像、视频、生态 | 很低 | 低 | 闭源综合能力与产品生态最成熟之一,但参数最不透明 |
| Gemini(Google) | Gemini 2.5、2.0、1.5、Imagen、Veo | 原生多模态、长上下文、Google 生态 | 很低 | 低(Gemma 另算) | 多模态和上下文规格很强,商业线参数公开极少 |
| Grok(xAI) | Grok-4、Grok-4.1、Grok-4.20、grok-imagine-* | 长上下文、推理、图像/视频生成、X 生态联动 | 较低 | 中低 | 迭代快、上下文长、产品风格鲜明,但公开参数仍有限 |
国外阵营简要判断
- 如果你要 综合闭源能力上限:优先看 OpenAI、Gemini
- 如果你要 长上下文 + 新型号迭代速度:优先看 Grok、OpenAI、Gemini
- 如果你要 汇报里强调“参数规模”:国外闭源厂商通常不适合,因为公开得太少
3. 最简结论(适合直接放汇报首页)
国产看什么
- Qwen:最均衡,开源生态最强之一
- DeepSeek:推理与开源部署最亮眼之一
- GLM:推理 + Agent + 商业线更新快
- Kimi:代码与 Agentic Coding 很突出
- MiniMax:语音 / 视频 / 内容生成产品线很丰富
- Doubao / Seed:平台化能力强,但公开参数偏少
国外看什么
- OpenAI:综合闭源能力与产品生态强
- Gemini:原生多模态和长上下文强
- Grok:长上下文、推理和生成式内容路线鲜明
