大模型详细文档

程小虎

大模型详细文档

更新时间:2026-03-27
统计口径:按官网、官方 API 文档、官方博客、官方 GitHub / Hugging Face / Model Card 等公开渠道可查信息整理
重要说明:

  1. 你要求的是“各家所有大模型版本”,但对 OpenAI、Google、MiniMax、字节 Seed / 豆包、部分 GLM 商业模型来说,官方并不会公开全部内部版本、灰度版本、下线版本或全部参数规模。因此本文采用“截至当前官方可查的公开模型/版本/系列”口径。
  2. 参数量仅记录官方明确公开的数据;若官网/API/模型卡未披露,则统一标注为 未公开
  3. 对于 ChatGPT / Gemini / Grok / Kimi / 豆包 这类既是产品名、又会映射到底层模型家族的情况,本文会同时写明“产品名 / API 模型名 / 底层模型家族”。
  4. 文中“B”表示 Billion(十亿)参数;MoE 模型会尽量同时标注 总参数 / 激活参数
  5. 本版已按你补充要求,尽量纳入 正式版 / preview / turbo / mini / nano / snapshot / 已下线 / 历史 API ID;并额外标注“确认级别”:官方当前、官方历史、第三方整理、待核验。

目录


Qwen(阿里巴巴 / 通义千问)

1. Qwen:厂商与命名说明

  • 厂商:阿里巴巴 / Qwen Team / 通义千问
  • 产品/平台:Qwen Chat、阿里云百炼 / Model Studio 等
  • 模型特点:公开模型谱系最完整之一,覆盖文本、推理、代码、视觉、音频、Embedding、Rerank、图像生成、安全模型等
  • 开放形态:既有闭源商用 API,也有大量开源 / open-weight 模型

2. Qwen:公开可查的主要模型家族

2.1 Qwen3 文本/推理主系列

模型/版本参数规模架构主要能力上下文开源情况备注
Qwen3-235B-A22B235B / 激活22BMoE文本、推理、代码、Agent、工具调用、多语言128K开源Qwen3 旗舰公开权重
Qwen3-30B-A3B30B / 激活3BMoE文本、推理、代码、工具调用128K开源小型高效 MoE
Qwen3-32B32BDense文本、推理、代码128K开源高性能 Dense
Qwen3-14B14BDense文本、推理、代码128K开源中大尺寸
Qwen3-8B8BDense文本、推理、代码128K开源通用主力
Qwen3-4B4BDense文本、推理32K开源轻量级
Qwen3-1.7B1.7BDense文本32K开源小模型
Qwen3-0.6B0.6BDense文本32K开源极轻量

2.2 Qwen3 派生版本 / 指令与思考版

模型/版本参数规模能力重点是否推理备注
Qwen3-235B-A22B-Instruct-2507235B / 激活22B指令跟随、通用对话、代码、工具调用公开版本命名可见
Qwen3-235B-A22B-Thinking-2507235B / 激活22B深度推理、数学、代码Thinking 版
Qwen3-30B-A3B-Instruct-250730B / 激活3B指令跟随、代码、Agent
Qwen3-30B-A3B-Thinking-250730B / 激活3B深度推理
Qwen3-4B-Instruct-25074B轻量指令
Qwen3-4B-Thinking-25074B轻量推理

2.3 历史文本主系列

系列公开尺寸/版本(官方文档可查)主要能力
Qwen1.8B / 7B / 14B / 72B早期基础文本系列
Qwen1.50.5B / 1.8B / 4B / MoE A2.7B / 7B / 14B / 32B / 72B / 110B文本、指令、长上下文演进
Qwen20.5B / 1.5B / 7B / 57B-A14B / 72B文本主系列
Qwen2.50.5B / 1.5B / 3B / 7B / 14B / 32B / 72B文本、推理增强、多语言、长上下文

2.4 多模态 / 视觉 / 音频 / 专项模型

家族公开版本/尺寸模态备注
Qwen-VL7B 系图像理解早期视觉语言模型
Qwen2-VL2B / 7B / 72B图像理解、多模态官方文档列出
Qwen3-VL公开仓库可见图文理解Qwen3 代视觉线
Qwen-Audio7B 系音频理解早期音频模型
Qwen2-Audio7B 系音频理解/语音官方文档列出
Qwen3-Omni未公开文本、图像、音频、视频全模态定位
Qwen3-ASR未公开语音识别ASR 专项
Qwen3-TTS未公开文本转语音TTS 专项
Qwen-Image / Qwen-Image-Edit未公开图像生成 / 图像编辑生成式图像模型
Qwen3-Embedding未公开Embedding向量检索
Qwen3-Reranker未公开Rerank检索重排
Qwen3Guard未公开安全审查内容安全

2.5 代码 / 数学 / 推理专项

家族公开尺寸/版本能力
CodeQwen1.57B代码生成
Qwen2.5-Coder0.5B / 1.5B / 3B / 7B / 14B / 32B代码生成、代码补全、Agent 编程
Qwen2-Math1.5B / 7B / 72B数学
Qwen2.5-Math1.5B / 7B / 72B数学
QwQ-Preview32B推理
QVQ-Preview72B视觉推理

3. Qwen:参数公开情况

  • 公开较充分:Qwen / Qwen1.5 / Qwen2 / Qwen2.5 / Qwen3 大量开源模型均有明确参数规模
  • 未完全公开:闭源 API 版 Qwen Max / Plus / Turbo、部分 Qwen3-Omni / Image / Audio / Embedding / Guard 等未披露参数

4. Qwen:能力总结

  • 文本:强
  • 推理:强(Qwen3 Thinking、QwQ 等)
  • 代码:强(Qwen2.5-Coder、Qwen3)
  • 图片理解:强(Qwen-VL、Qwen2-VL、Qwen3-VL)
  • 图片生成:有
  • 音频:有
  • 视频理解:有(Qwen3-Omni 路线)
  • Embedding / Rerank:有
  • 开源生态:很强

5. Qwen:主要来源

  • Qwen 官方文档:https://qwen.readthedocs.io/
  • Qwen3 官方博客:https://qwenlm.github.io/blog/qwen3/
  • Qwen GitHub:https://github.com/QwenLM
  • Qwen Hugging Face:https://huggingface.co/Qwen

GLM(智谱 AI / Z.ai)

1. GLM:厂商与命名说明

  • 厂商:智谱 AI(Zhipu AI)
  • 平台:Z.ai、BigModel / bigmodel.cn
  • 模型家族核心命名:GLM-4、GLM-4V、GLM-4.5、GLM-4.6V、GLM-Z1、GLM-5 等

2. GLM:公开可查的主要模型 / 版本谱系(扩展口径)

2.1 GLM-5 系列

这一项是本次重点修正:GLM 不仅有 GLM-5-Turbo,也有 GLM-5 主型号。按当前官方公开页面,GLM-5 系至少可明确确认如下版本名。

模型/版本状态确认级别参数规模输入/输出模态上下文备注
GLM-5正式版官方当前官方文档页未写参数;官方页正文提到从 355B(激活32B)扩展至 744B(激活40B)文本 → 文本200K新一代旗舰基座模型
glm-5API ID官方当前未公开文本 → 文本200K调用示例中明确出现的 model 字段
GLM-5-Turbo正式版官方当前未公开文本 → 文本200K面向 OpenClaw / 龙虾场景增强
glm-5-turboAPI ID官方当前未公开文本 → 文本200K调用示例中明确出现的 model 字段

2.2 GLM-4.7 / 4.6 / 4.5 当前文本主线

模型/版本状态确认级别参数规模输入/输出模态上下文备注
GLM-4.7正式版官方当前未公开文本 → 文本官方页面可见当前文档导航明确列出
GLM-4.6正式版官方当前未公开文本 → 文本官方页面可见当前文档导航明确列出
GLM-4.5正式版官方历史/当前公开355B / 激活32B文本 → 文本128K公开资料较多
GLM-4.5-Air正式版官方历史/当前公开106B / 激活12B文本 → 文本128K轻量路线

2.3 GLM-4 / GLM-Z1 / 历史与多模态线

模型/版本状态确认级别参数规模主要能力备注
GLM-4-32B-Base-0414历史公开版官方历史32B文本基础模型开源线
GLM-4-32B-0414历史公开版官方历史32B对话、代码、函数调用开源线
GLM-Z1-32B-0414历史公开版官方历史32B深度推理、数学、代码开源线
GLM-Z1-Rumination-32B-0414历史公开版官方历史32B沉思式研究、搜索工具调用开源线
GLM-4-9B-0414历史公开版官方历史9B对话、翻译开源线
GLM-Z1-9B-0414历史公开版官方历史9B通用推理、数学开源线
GLM-4-Voice正式版官方公开未公开端到端语音对话、ASR、TTS语音路线
GLM-4-9B历史版官方公开9B基础文本历史版本
GLM-4-9B-Chat历史版官方公开9B对话历史版本
GLM-4-9B-Chat-1M历史版官方公开9B超长上下文对话1M 上下文
GLM-4V-9B历史版官方公开9B图像理解历史多模态
GLM-4.6V正式版官方公开未公开图像/视频/文本理解、工具调用多模态旗舰
GLM-4.6V-FlashX正式版官方公开未公开轻量多模态高速版
GLM-4.6V-Flash正式版官方公开未公开多模态免费/轻量定位

3. GLM:版本号与命名补充说明

  • GLM-5 不是只有 Turbo:当前官方文档中,GLM-5GLM-5-Turbo 都是独立模型页。
  • API ID 与展示名需区分:例如页面标题是 GLM-5-Turbo,但调用时模型 ID 是 glm-5-turbo
  • GLM-4.5 → 4.6 → 4.7 → 5 是公开主线演进;但并不意味着所有子系(如视觉、语音、OCR、Agent)都完全同步命名。
  • 参数披露不完全一致:有的写在模型介绍正文,有的只在技术报告、模型卡或博客出现,因此本文以“页面明确可查”为主。

4. GLM:能力总结

  • 文本:强
  • 推理:强(GLM-Z1、GLM-4.5)
  • 代码:有
  • 图片理解:有(GLM-4V / 4.5V / 4.6V)
  • 视频理解:有(4.6V 路线)
  • 音频:有(GLM-4-Voice)
  • Agent / 工具调用:较强

5. GLM:参数公开情况

  • 公开较充分:GLM-4 开源线、GLM-Z1、GLM-4.5、GLM-4.5-Air
  • 本次新增明确修正:GLM-5 页面正文已公开“从 355B(激活32B)扩展至 744B(激活40B)”这一档位信息
  • 仍未完全公开:GLM-4.6V、GLM-5-Turbo、GLM-4.7 等页面未统一给出完整 B 数表

6. GLM:主要来源

  • Z.ai:https://z.ai/
  • BigModel:https://bigmodel.cn/
  • GLM-5 官方页:https://docs.bigmodel.cn/cn/guide/models/text/glm-5
  • GLM-5-Turbo 官方页:https://docs.bigmodel.cn/cn/guide/models/text/glm-5-turbo
  • GitHub(GLM-4):https://github.com/zai-org/GLM-4
  • Hugging Face(THUDM):https://huggingface.co/THUDM

Kimi(Moonshot AI / 月之暗面)

1. Kimi:厂商与命名说明

  • 厂商:Moonshot AI(月之暗面)
  • 产品:Kimi
  • API 平台:Moonshot / Kimi Open Platform
  • 命名特点:早期是 moonshot-v1-*,后期转向 kimi-k2*kimi-k2.5

2. Kimi:公开可查的主要模型 / 版本谱系(扩展口径)

2.1 当前主力模型

API 模型名状态确认级别参数规模架构上下文主要能力备注
kimi-k2.5正式版官方当前未公开原生多模态256K文本、图像理解、视频理解、Agent、代码、推理当前旗舰
kimi-k2-0905-preview预览版官方当前1T / 激活32BMoE256KAgentic Coding、上下文理解、前端代码生成K2 重要版本
kimi-k2-0711-preview预览版官方当前1T / 激活32BMoE128K代码、Agent早期 K2 版
kimi-k2-turbo-preview预览版官方当前1T / 激活32BMoE256K高速推理K2 Turbo
kimi-k2-thinking正式版官方当前1T / 激活32BMoE256K长思维推理、多步工具使用Thinking 版
kimi-k2-thinking-turbo正式版官方当前1T / 激活32BMoE256K深度推理 + 高速Thinking Turbo

2.2 moonshot-v1 系列

API 模型名状态确认级别参数规模上下文模态主要能力
moonshot-v1-8k历史版 / 已下线倾向官方历史未公开8K文本短文本生成
moonshot-v1-32k历史版 / 已下线倾向官方历史未公开32K文本长文本生成
moonshot-v1-128k历史版 / 已下线倾向官方历史未公开128K文本超长文本
moonshot-v1-8k-vision-preview历史预览版官方历史未公开8K图像→文本图片理解
moonshot-v1-32k-vision-preview历史预览版官方历史未公开32K图像→文本图片理解
moonshot-v1-128k-vision-preview历史预览版官方历史未公开128K图像→文本图片理解

2.3 已弃用 / 历史别名

名称状态替代
kimi-latest已弃用kimi-k2.5
kimi-thinking-preview已弃用kimi-k2.5

2.4 开源权重

名称状态确认级别参数规模开源平台备注
Kimi-K2-Base开源正式版官方当前1T / 激活32BHugging Face / GitHub开源检查点
Kimi-K2-Instruct开源正式版官方当前1T / 激活32BHugging Face / GitHub指令版

3. Kimi:能力总结

  • 文本:强
  • 推理:强
  • 代码:很强(K2 路线突出)
  • 图像理解:有
  • 视频理解:有(K2.5)
  • Agent:很强
  • 开源:部分(K2 开源,K2.5 参数未公开)

4. Kimi:参数公开情况

  • 公开:K2 系列 1T 总参数 / 32B 激活
  • 未公开:K2.5 参数规模

5. Kimi:主要来源

  • Kimi API 文档:https://platform.moonshot.ai/docs/introduction
  • Kimi K2.5 博客:https://www.kimi.com/blog/kimi-k2-5
  • GitHub:https://github.com/MoonshotAI/Kimi-K2
  • Hugging Face:https://huggingface.co/moonshotai

6. Kimi:版本状态与来源说明

  • preview / thinking / turbo 等命名直接沿用官方 API 文档或官方仓库。
  • moonshot-v1-* 在当前主宣传中已退居历史位置,本文标作“官方历史”或“历史预览版”。
  • 对 K2.5 参数量,本文仍按“未公开”处理,不把 K2 的 1T / 激活32B 直接外推到 K2.5。

MiniMax

1. MiniMax:厂商与命名说明

  • 厂商:MiniMax
  • 模型线覆盖:文本、推理、代码、语音、图像、视频、音乐
  • 公开参数透明度:中等偏低,少数模型公开参数

2. MiniMax:公开可查的主要模型 / 版本谱系(扩展口径)

2.1 文本 / 推理主模型

模型/版本参数规模上下文主要能力备注
MiniMax-M2.7未公开204,800递归自改进、Agent Teams、复杂任务执行、软件工程当前旗舰
MiniMax-M2.7-highspeed未公开204,800高速推理高速版
MiniMax-M2.5未公开204,800代码、工具调用、搜索、办公生产力稳定版
MiniMax-M2.5-highspeed未公开204,800低延迟代码/推理高速版
MiniMax-M2.1230B / 激活10B204,800多语言编程、代码重构、推理已公开参数
MiniMax-M2.1-highspeed230B / 激活10B204,800高速推理
MiniMax-M2未公开200,000Agent、函数调用、高级推理历史主线
M2-her未公开未公开角色扮演、多轮对话、情感表达特定风格路线
MiniMax-Text-01未公开未公开文本生成早期文本模型
MiniMax-VL-01未公开未公开图文理解早期视觉模型

2.2 语音模型

模型/版本能力语言支持备注
speech-2.8-hd高保真 TTS / 音色相似度40 种语言新版高清
speech-2.8-turbo低延迟 TTS40 种语言Turbo
speech-2.6-hd高音质语音40 种语言
speech-2.6-turbo低延迟语音40 种语言
speech-02-hd高保真语音克隆24 种语言早期主力
speech-02-turbo低延迟语音24 种语言

2.3 视频生成模型

模型/版本主要能力输出规格备注
MiniMax Hailuo 2.3文生视频 / 图生视频 / 物理模拟1080p / 768p,6s/10s新版
MiniMax Hailuo 2.3 Fast高速图生视频1080p / 768pFast
MiniMax Hailuo 02高分辨率视频生成1080p / 768p / 512p历史版本

2.4 图像与音乐模型

模型/版本能力备注
Image-01文生图图片生成
Music-2.5+音乐生成、乐器增强、跨风格融合最新音乐线
Music-2.5人声与多乐器歌曲生成
Music-2.0增强音乐性与人声自然度
Music-1.5最长 4 分钟歌曲生成

2.5 开源公开情况

名称参数规模状态
MiniMax-M2.1230B / 激活10B开源可见
MiniMax-M2未公开开源可见 / 参数未公开

3. MiniMax:能力总结

  • 文本:强
  • 推理:强
  • 代码:强
  • 图片理解:有(VL)
  • 图片生成:有
  • 音频:强
  • 视频生成:强
  • 音乐生成:有特色

4. MiniMax:参数公开情况

  • 公开:M2.1(230B / 10B 激活)
  • 未公开:M2.7、M2.5、M2、Image、Hailuo、多数语音/音乐模型

5. MiniMax:主要来源

  • MiniMax 模型文档:https://platform.minimax.io/docs/guides/models-intro
  • 发布日志:https://platform.minimax.io/docs/release-notes/models
  • 官方博客:https://www.minimax.io/news/
  • Hugging Face:https://huggingface.co/MiniMaxAI

DeepSeek

1. DeepSeek:厂商与命名说明

  • 厂商:DeepSeek
  • 产品/API:DeepSeek API、DeepSeek APP / Web
  • 命名特点:API 侧常用 deepseek-chat / deepseek-reasoner,底层对应 V3.x / R1 等模型线
  • 透明度:参数公开程度较高,尤其是 V2/V3/R1 开源体系

2. DeepSeek:公开可查的主要模型 / 版本谱系(扩展口径)

2.1 当前 API 主力

API 模型名对应模型参数规模上下文主要能力备注
deepseek-chatDeepSeek-V3.2(Non-thinking)未公开128K文本、工具调用、JSON 输出当前 API 主力
deepseek-reasonerDeepSeek-V3.2(Thinking)未公开128K深度推理、工具调用、JSON 输出推理主力

2.2 V3 系列

模型/版本参数规模架构上下文能力
DeepSeek-V3-Base671B / 激活37BMoE128K文本基础模型
DeepSeek-V3671B / 激活37BMoE128K通用对话
DeepSeek-V3.1671B / 激活37BMoE128KV3 更新版
DeepSeek-V3.2未公开MoE128K当前 API 对应版本
DeepSeek-V3.2-Speciale未公开MoE128K更偏推理 / API-only

2.3 R1 推理系列

模型/版本参数规模架构上下文能力
DeepSeek-R1-Zero671B / 激活37BMoE128K纯 RL 推理
DeepSeek-R1671B / 激活37BMoE128K深度推理、数学、代码
DeepSeek-R1-0528671B / 激活37BMoE128KR1 更新版

2.4 蒸馏模型

模型/版本参数规模基底能力
DeepSeek-R1-Distill-Qwen-1.5B1.5BQwen推理蒸馏
DeepSeek-R1-Distill-Qwen-7B7BQwen推理蒸馏
DeepSeek-R1-Distill-Llama-8B8BLlama推理蒸馏
DeepSeek-R1-Distill-Qwen-14B14BQwen推理蒸馏
DeepSeek-R1-Distill-Qwen-32B32BQwen推理蒸馏
DeepSeek-R1-Distill-Llama-70B70BLlama推理蒸馏

2.5 历史版本

模型/版本参数规模备注
DeepSeek-V2236B / 激活21B历史主力
DeepSeek-V2.5236B / 激活21BV2 增强版
DeepSeek-R1-Lite未公开早期 R1 路线

3. DeepSeek:能力总结

  • 文本:强
  • 推理:很强(R1)
  • 代码:强
  • 图片理解:当前公开主线以文本为主
  • 图像生成:公开主线未见
  • 音频:公开主线未见
  • 开源:极强

4. DeepSeek:参数公开情况

  • 公开充分:V2、V2.5、V3、R1、蒸馏模型
  • 未公开:V3.2、V3.2-Speciale 等新 API 层版本的精确参数

5. DeepSeek:主要来源

  • DeepSeek API 文档:https://api-docs.deepseek.com/
  • DeepSeek-V3 GitHub:https://github.com/deepseek-ai/DeepSeek-V3
  • DeepSeek-R1 GitHub:https://github.com/deepseek-ai/DeepSeek-R1
  • Hugging Face:https://huggingface.co/deepseek-ai

Doubao / Seed(字节跳动 / 火山引擎)

1. 豆包 / Seed:厂商与命名说明

  • 厂商:字节跳动(ByteDance)/ Seed 团队 / 火山引擎
  • 产品名:豆包(Doubao)
  • 底层模型族:Seed / Doubao-Seed / 火山方舟 API 模型 ID
  • 特点:多模态、Agent、代码能力强,但参数公开透明度较低

2. 豆包 / Seed:公开可查的主要模型 / 版本谱系(扩展口径)

2.1 Seed 2.0 系列

模型/版本API 模型 ID参数规模上下文模态主要能力
Seed 2.0 Prodoubao-seed-2-0-pro未公开未公开文本+图像+视频旗舰推理、多模态、Agent
Seed 2.0 Litedoubao-seed-2-0-lite未公开未公开文本+图像+视频均衡通用
Seed 2.0 Miniseed-2-0-mini-260215未公开256K文本+图像+视频高并发轻量模型
Seed 2.0 Codedoubao-seed-code-*未公开未公开文本代码专项

2.2 历史 / 早期版本

模型/版本参数规模模态备注
Doubao-Seed-1.8未公开文本+图像Seed 2.0 上一代
Doubao-Pro未公开文本早期版本
Doubao-Lite未公开文本早期轻量版

3. 豆包 / Seed:能力总结

  • 文本:强
  • 推理:强
  • 代码:有(Seed 2.0 Code)
  • 图片理解:有
  • 视频理解:有
  • Agent:强
  • 开源:基本闭源

4. 豆包 / Seed:参数公开情况

  • 总体未公开:Seed 2.0 Pro / Lite / Mini / Code 均未公开具体 B 数

5. 豆包 / Seed:主要来源

  • Seed 官网:https://seed.bytedance.com/en/seed2
  • Seed Model Card:https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf
  • 火山引擎 / 方舟平台:https://console.volcengine.com/ark/

ChatGPT / OpenAI

1. OpenAI:厂商与命名说明

  • 厂商:OpenAI
  • ChatGPT 是产品名,不等于单一模型名
  • ChatGPT 背后会根据套餐、场景、时间点调用 GPT / o 系列 / 图像 / 语音 / 视频等不同模型
  • OpenAI 的特点是:模型能力公开很多,参数规模几乎从不公开

2. OpenAI:公开可查的主要模型 / 版本谱系(扩展口径)

2.1 GPT-5 主线(本次重点修正)

这一项是本次重点修正:OpenAI 确实有 GPT-5.1 与 GPT-5.2 的官方模型页;当前未查到官方 GPT-5.3 页面,因此不能写成已确认存在。

模型/版本状态确认级别输入/输出模态主要能力上下文备注
gpt-5正式版官方当前文本、图像 → 文本通用旗舰400K主型号
gpt-5-2025-08-07快照官方当前文本、图像 → 文本快照版本400K官方 snapshots 列表可见
gpt-5-mini正式版官方当前文本、图像 → 文本低成本版400K主型号子线
gpt-5-mini-2025-08-07快照官方当前文本、图像 → 文本快照版本400K
gpt-5-nano正式版官方当前文本、图像 → 文本超轻量版400K
gpt-5-nano-2025-08-07快照官方当前文本、图像 → 文本快照版本400K
gpt-5.1正式版官方当前文本、图像 → 文本编码与 agentic tasks400K你指出的漏项,现已补入
gpt-5.1-2025-11-13快照官方当前文本、图像 → 文本快照版本400K官方 snapshots 列表可见
gpt-5.2已被后续版本取代官方当前文本、图像 → 文本previous frontier model400K官方页明确写 previous frontier
gpt-5.2-2025-12-11快照官方当前文本、图像 → 文本快照版本400K
gpt-5.4当前旗舰官方当前文本、图像 → 文本复杂推理、编码、Agent、工具调用1M当前 docs 推荐优先使用
gpt-5.4-2026-03-05快照官方当前文本、图像 → 文本快照版本1M
gpt-5.4-mini正式版官方当前文本、图像 → 文本低成本 / 子智能体 / 编码400K
gpt-5.4-mini-2026-03-17快照官方当前文本、图像 → 文本快照版本400K
gpt-5.4-nano正式版官方当前文本、图像 → 文本高并发轻量任务官方公开页可见当前已公开命名

2.2 GPT-5.x 缺失版本说明

版本号结论说明
GPT-5.1已确认存在官方模型页可直接访问
GPT-5.2已确认存在官方模型页可直接访问,且已被后续版本替代
GPT-5.3未查到官方公开模型页当前不能按已确认版本写入正文,只能标注为“未查到官方公开证据”
GPT-5.4已确认存在当前旗舰

2.3 其他通用模型主线

模型/版本状态确认级别输入/输出模态主要能力上下文
gpt-4.1正式版官方当前文本、图像 → 文本长上下文、编码、指令跟随1M
gpt-4.1-mini正式版官方当前/公开文档可查文本、图像 → 文本成本优化版1M
gpt-4.1-nano正式版官方当前/公开文档可查文本、图像 → 文本超轻量1M
gpt-4o正式版官方当前文本、图像、音频 → 文本/音频Omni 多模态128K
gpt-4o-2024-05-13快照官方当前文本、图像、音频 → 文本/音频快照版本128K
gpt-4o-2024-08-06快照官方当前文本、图像、音频 → 文本/音频快照版本128K
gpt-4o-2024-11-20快照官方当前文本、图像、音频 → 文本/音频快照版本128K
gpt-4o-mini正式版官方当前/公开文档可查文本、图像 → 文本低成本多模态128K

2.4 推理模型(o 系列)

模型/版本状态确认级别模态主要能力上下文
o3正式版官方当前文本、图像 → 文本高级推理、代码、数学、视觉分析200K
o3-pro正式版官方公开文本、图像 → 文本更长思考、更高质量推理200K
o4-mini正式版官方当前文本、图像 → 文本轻量级推理200K
o1历史/仍公开可见官方公开文本、图像 → 文本早期推理模型公开资料可见
o1-preview历史版官方历史文本 → 文本预览推理模型官方 deprecations 可见
o1-mini历史版官方历史文本 → 文本轻量推理模型官方 deprecations 可见
o3-mini历史/公开可见官方公开文本 → 文本轻量推理官方公开资料可见

2.5 专项模型

模型/版本状态确认级别模态能力
gpt-image-1正式版官方当前文本/图像 → 图像图像生成 / 编辑
gpt-image-1.5正式版官方当前/公开资料可见文本/图像 → 图像图像生成 / 编辑
gpt-image-1-mini正式版官方公开文本/图像 → 图像轻量图像生成
gpt-realtime-1.5正式版官方当前/公开资料可见音频 ↔ 音频 / 文本实时语音交互
gpt-realtime-mini正式版官方公开音频 ↔ 音频 / 文本轻量实时语音
gpt-4o-mini-tts正式版官方当前/公开资料可见文本 → 音频语音合成
gpt-4o-transcribe正式版官方当前/公开资料可见音频 → 文本语音转写
gpt-4o-mini-transcribe正式版官方当前/公开资料可见音频 → 文本轻量转写
text-embedding-* / embeddings 路线持续更新官方公开文本 → 向量Embedding
text-moderation-*持续更新官方公开文本/图像输入审查安全审核
Sora(视频)正式公开产品线官方公开文本/图像 → 视频视频生成

3. OpenAI:ChatGPT 与底层模型关系

产品名实际含义
ChatGPTOpenAI 的聊天产品 / 前端,不是单一模型
ChatGPT 中的“默认模型”可能随套餐与时间切换到 GPT-5.x、GPT-4.x、o 系列等
ChatGPT 图像/语音/视频功能通常分别调用图像、实时语音、视频相关专用模型

4. OpenAI:参数公开情况

  • 几乎全部未公开
  • GPT-4 / GPT-4o / GPT-5.x / o 系列 / Sora 等官方均未给出 B 数

5. OpenAI:版本号补充说明

  • OpenAI 的 GPT-5.x 版本号不是连续全公开的
  • 当前已直接确认:gpt-5gpt-5.1gpt-5.2gpt-5.4 及其部分快照。
  • 当前未查到 gpt-5.3 的官方公开模型页,因此本文不把它写成“已确认存在”。
  • OpenAI 模型页通常会同时给出:别名(alias)+ 快照(snapshot),例如 gpt-5.1gpt-5.1-2025-11-13

6. OpenAI:能力总结

  • 文本:强
  • 推理:很强(o3 / GPT-5.4)
  • 代码:很强
  • 图片理解:强
  • 图片生成:强
  • 音频:强
  • 视频:有(Sora)
  • Embedding / Moderation:有

7. OpenAI:主要来源

  • OpenAI 模型页:https://platform.openai.com/docs/models
  • GPT-5.1:https://platform.openai.com/docs/models/gpt-5.1
  • GPT-5.2:https://platform.openai.com/docs/models/gpt-5.2
  • OpenAI 开发者文档:https://developers.openai.com/api/docs/models
  • OpenAI Pricing:https://openai.com/api/pricing/
  • OpenAI Blog:https://openai.com/index/

Gemini / Google

1. Gemini:厂商与命名说明

  • 厂商:Google / Google DeepMind
  • 产品/平台:Gemini、Google AI Studio、Vertex AI
  • Gemini 也是产品与模型家族双重名称
  • 与 OpenAI 类似:能力公开较多,参数规模基本不公开

2. Gemini:公开可查的主要模型 / 版本谱系(扩展口径)

2.1 主力 Gemini 模型

模型/版本状态确认级别参数规模模态主要能力上下文备注
Gemini 2.5 Pro正式版官方当前未公开文本、图像、音频、视频 → 文本最强思考模型、代码、数学、STEM、长上下文分析1M主力旗舰
Gemini 2.5 Flash正式版官方当前未公开文本、图像、视频 → 文本快速、低延迟、多模态1M主力
Gemini 2.5 Flash-Lite Preview预览版官方当前未公开文本、图像 → 文本更轻量、更便宜官方文档可见预览/过渡
Gemini 2.5 Flash Image(Nano Banana)预览 / 专项路线官方当前/公开资料可见未公开文本、图像 → 图像/编辑高速视觉生成与编辑-图像生成
Gemini 2.0 Flash正式版官方当前未公开文本、图像 → 文本快速通用多模态1M历史主线仍常见
Gemini 2.0 Flash-Lite正式版官方当前未公开文本、图像 → 文本轻量级官方文档可见历史/轻量
Gemini 1.5 Pro历史正式版官方历史/官方公开未公开文本、图像、音频、视频 → 文本超长上下文、多模态分析2M历史旗舰
Gemini 1.5 Flash历史正式版官方历史/官方公开未公开文本、图像 → 文本快速轻量多模态1M历史主线

2.2 新预览 / 实时能力路线(官方文档可见)

模型/版本状态确认级别参数规模能力
Gemini 3.1 Pro Preview预览版官方当前/公开资料可见未公开新一代预览旗舰
Gemini 3.1 Flash / Flash-Lite Preview预览版官方当前/公开资料可见未公开低延迟新代预览
Gemini 2.5 Flash Live Preview预览版官方当前/公开资料可见未公开实时语音/视频交互
Gemini 2.5 Computer Use Preview预览版官方当前/公开资料可见未公开计算机使用 / Agent UI 操作

2.3 专项模型

模型/版本状态确认级别参数规模类型能力
text-embedding-004 等 Embedding 路线正式版官方公开未公开Embedding文本向量
Imagen 系列正式版 / 预览版并存官方公开未公开图像生成文生图
Veo 系列(若平台开放)正式版 / 预览版并存官方公开未公开视频生成文生视频
Gemma 系列开源正式版官方公开不同尺寸公开开源权重系列Google 开源模型线(与 Gemini 商业线不同)

3. Gemini:参数公开情况

  • Gemini 商业系列参数基本未公开
  • 如果你要找“Gemini 多少 B”,Google 官方通常不给出
  • Google 公开参数更多出现在 Gemma 开源系列,而不是 Gemini 商业系列

4. Gemini:能力总结

  • 文本:强
  • 推理:很强(2.5 Pro)
  • 代码:强
  • 图片理解:强
  • 图片生成:有(Flash Image / Imagen)
  • 音频:有
  • 视频理解:有
  • 视频生成:有(平台侧)
  • Embedding:有

5. Gemini:主要来源

  • Gemini 模型总览:https://ai.google.dev/gemini-api/docs/models
  • Gemini 2.5 Pro:https://ai.google.dev/gemini-api/docs/models/gemini-2.5-pro
  • Gemini 2.0 Flash:https://ai.google.dev/gemini-api/docs/models/gemini-2.0-flash
  • Gemini API 更新日志:https://ai.google.dev/gemini-api/docs/changelog
  • Google DeepMind / Developers Blog:https://deepmind.google/blog/

6. Gemini:版本状态与来源说明

  • Gemini 的很多版本会同时出现在 AI Studio / Gemini API / Vertex AI 三套文档体系里,命名和开放节奏可能不完全同步。
  • 本文把能在官方模型总览、官方 changelog 或官方产品页见到的版本列为“官方当前”或“官方公开”。
  • PreviewLive PreviewComputer Use Preview 等,统一按“预览版”处理,不把它们写成稳定 GA 版本。

Grok / xAI

你原消息里写的是 “Gork”,这里按 xAI 的 Grok 理解。

1. Grok:厂商与命名说明

  • 厂商:xAI
  • 产品/模型名:Grok
  • 特点:Grok-1 开源且公开了参数;后续 Grok-3 / 4 / 4.1 / 4.20 等能力更强,但参数未公开

2. Grok:公开可查的主要模型 / 版本谱系(扩展口径)

2.1 文本 / 推理主模型

模型/版本状态确认级别参数规模模态主要能力上下文
Grok-1历史正式版 / 开源官方历史314B文本 → 文本基础对话8K
Grok-3历史主线官方公开/历史资料可见未公开文本、图像 → 文本推理、视觉、Agent官方公开版本线
Grok-4正式版官方公开/历史资料可见未公开文本、图像 → 文本旗舰推理、多任务1M
Grok-4 Fast正式版官方公开/历史资料可见未公开文本、图像 → 文本高速高效1M
grok-4-1-fast-reasoning正式版官方当前未公开文本、图像 → 文本快速推理2M
grok-4-1-fast-non-reasoning正式版官方当前未公开文本、图像 → 文本通用多模态2M
grok-4.20-0309-reasoning正式版 / 快照式命名官方当前未公开文本、图像 → 文本推理、函数调用、结构化输出2M
grok-4.20-0309-non-reasoning正式版 / 快照式命名官方当前未公开文本、图像 → 文本函数调用、结构化输出2M
grok-4.20-multi-agent-0309正式版 / 快照式命名官方当前未公开文本、图像 → 文本原生多智能体2M

2.2 生成模型

模型/版本状态确认级别参数规模模态能力
grok-imagine-image正式版官方当前未公开文本/图像 → 图像文生图 / 图像生成
grok-imagine-image-pro正式版官方当前未公开文本/图像 → 图像高质量图像生成
grok-imagine-video正式版官方当前未公开文本/图像/视频 → 视频视频生成

3. Grok:参数公开情况

  • 公开:Grok-1 = 314B(MoE,官方开源时披露)
  • 未公开:Grok-3、Grok-4、Grok-4.1、Grok-4.20、Imagine 系列

4. Grok:能力总结

  • 文本:强
  • 推理:强
  • 代码:有
  • 图片理解:有
  • 图片生成:有
  • 视频生成:有
  • 多智能体:有

5. Grok:主要来源

  • xAI 模型文档:https://docs.x.ai/developers/models
  • xAI News:https://x.ai/news/
  • Grok-1 GitHub:https://github.com/xai-org/grok-1

6. Grok:版本状态与来源说明

  • xAI 当前文档里常把版本写成类似 grok-4.20-0309-* 这种带日期/批次特征的命名,本文将其视为“快照式命名”而非传统 -latest 样式。
  • Grok-3Grok-4Grok-4 Fast 更多出现在官方公开发布口径或站内公开资料中;对 API 文档里直接出现的 grok-4-1-*grok-4.20-*,本文标作“官方当前”。
  • Grok-1 有较明确的公开参数规模,后续主线继续按“未公开”处理。

总览对比

1. 参数透明度对比

厂商参数透明度备注
Qwen很高大量开源权重,尺寸披露充分
GLM中等开源线较清晰,商业线不透明
Kimi中等K2 参数公开,K2.5 未公开
MiniMax较低仅少数模型公开参数
DeepSeek很高V2/V3/R1 系列公开较充分
Doubao / Seed很低多数参数未公开
OpenAI很低几乎不公开参数规模
Google Gemini很低Gemini 商业线基本不公开参数
xAI Grok较低仅 Grok-1 明确公开 314B

2. 开源程度对比

厂商开源程度
Qwen很高
GLM
Kimi中等
MiniMax中低
DeepSeek很高
Doubao / Seed
OpenAI
Google Gemini低(Gemma 另算)
xAI Grok中低(仅部分开源)

3. 多模态覆盖对比(公开口径)

厂商文本推理代码图片理解图片生成音频视频理解/生成Embedding/Rerank
Qwen
GLM-未突出公开
Kimi-未突出公开未突出公开
MiniMax未突出公开
DeepSeek----未突出公开
Doubao / Seed未突出公开未突出公开未突出公开
OpenAI
Gemini
Grok未突出公开未突出公开

4. 结论

如果你最关心:

  • 开源与参数透明度:优先看 Qwen、DeepSeek、GLM
  • Agent / 代码能力:优先看 Kimi、Qwen、OpenAI、DeepSeek、MiniMax
  • 原生多模态覆盖:优先看 Gemini、OpenAI、Qwen、Doubao/Seed、MiniMax
  • 公开可查参数最少OpenAI、Gemini、Doubao/Seed

附:阅读建议

如果你后面还要继续做选型,我建议下一步把这份文档再拆成三份补充材料:

  1. 按“闭源 API 选型”排序:价格、上下文、延迟、工具调用、稳定性
  2. 按“开源部署”排序:参数规模、显存需求、推理框架支持
  3. 按“多模态能力”排序:图像理解、图像生成、语音、视频、实时交互

如果你要,我下一步可以继续帮你基于这份文档再生成一版:

  • 《大模型选型对比表(可直接汇报)》
  • 《大模型 API 价格 / 能力 / 上下文横向对比表》

按能力维度横向对比表(增强版)

说明:本节用于“横向选型”而非替代前文详细目录。为了可读性,按厂商当前主力公开系列归纳,不逐条展开全部历史版本。表中“强 / 有 / 弱 / 未公开”表示公开资料下的相对能力覆盖,不等于绝对榜单排名。

1. 厂商主力模型横向总表

厂商当前主力公开系列(概括)文本推理代码图片理解图片生成音频视频Agent / 工具调用Embedding / Rerank上下文公开情况参数公开情况开源程度
QwenQwen3、Qwen2.5、Qwen-VL、Qwen3-Omni、Qwen-Image较充分(32K / 128K 等)很高
GLMGLM-4、GLM-Z1、GLM-4.5、GLM-4.6V、GLM-5-Turbo弱 / 未突出公开未突出公开较充分(含 1M 个别型号)中等
Kimikimi-k2.5、kimi-k2 系列、moonshot-v1很强未突出公开未突出公开很强未突出公开较充分(128K / 256K)中等中等
MiniMaxM2.x、Text-01、VL-01、Speech、Hailuo、Image、Music未突出公开部分公开较低中低
DeepSeekDeepSeek-V3.x、R1、蒸馏模型很强弱 / 无公开主线未突出公开较充分(128K)很高
Doubao / SeedSeed 2.0 Pro/Lite/Mini/Code、历史 Doubao 系列未突出公开未突出公开未突出公开部分公开很低
OpenAIGPT-5.4、GPT-4.1、GPT-4o、o3/o4、Realtime/Image/Sora很强很充分(1M / 400K / 200K / 128K)很低
GeminiGemini 2.5 / 2.0 / 1.5、Imagen、Veo、Embedding很充分(官方持续更新)很低低(Gemma 另算)
GrokGrok-4 / 4.1 / 4.20、grok-imagine-*未突出公开未突出公开很充分(2M 等)较低中低

2. 按单项能力看,优先关注哪些厂商

能力维度第一梯队(公开口径)第二梯队备注
通用文本OpenAI、Gemini、Qwen、DeepSeekGLM、Kimi、MiniMax、Grok、Doubao/Seed几乎所有头部厂商都已具备高水平文本能力
深度推理OpenAI、DeepSeek、Qwen、GLM、KimiGemini、Grok、MiniMax、Doubao/SeedDeepSeek、Qwen、GLM 在公开参数透明度上更有优势
代码 / Agentic CodingKimi、Qwen、OpenAI、DeepSeekGLM、Gemini、MiniMax、Grok、Doubao/SeedKimi K2 路线在 Agentic Coding 定位上很突出
图片理解Gemini、OpenAI、Qwen、GLM、MiniMaxDoubao/Seed、Kimi、GrokDeepSeek 当前公开主线不以视觉见长
图片生成OpenAI、Gemini、MiniMax、Grok、Qwen其它厂商公开较少字节 Seed 公开资料里有多模态/视频,但图像生成型号披露不如前几家清晰
音频 / 语音OpenAI、Gemini、MiniMax、Qwen、GLM其它厂商公开较少MiniMax 在语音产品线公开命名最丰富之一
视频理解 / 生成Gemini、OpenAI、MiniMax、Grok、QwenGLM、Kimi、Doubao/Seed不同厂商有的偏理解,有的偏生成
Embedding / 检索OpenAI、Gemini、Qwen其余厂商公开较少公开型号和官方文档透明度差异较大
开源部署Qwen、DeepSeek、GLMKimi(部分)OpenAI / Gemini / Doubao 商业线基本不走开源路线
参数透明度Qwen、DeepSeek、GLMKimi、xAIOpenAI、Gemini、Doubao/Seed 最不透明

3. 如果按典型使用场景选型

场景更适合优先关注的厂商原因
企业内部知识库 / RAGOpenAI、Gemini、QwenEmbedding、长上下文、工具调用与生态较成熟
本地私有化部署Qwen、DeepSeek、GLM开源权重多,参数规模公开度高,部署资料丰富
AI 编程 / 智能体开发Kimi、Qwen、OpenAI、DeepSeek代码与 Agent 能力路线最清晰
多模态助手Gemini、OpenAI、Qwen、MiniMax图像、语音、视频覆盖相对完整
国内商业 API 集成Qwen、GLM、Kimi、MiniMax、Doubao/Seed、DeepSeek国内接入便利、服务链路成熟
海外前沿闭源能力OpenAI、Gemini、xAI新模型迭代快,上下文和多模态规格公开较积极

国产 / 国外厂商分组精简版

说明:本节是“汇报版 / 速览版”。只保留每家最关键的定位、代表型号、参数公开度和适用场景,方便你后续复制到汇报材料、周报、方案 PPT 里。

1. 国产厂商(中国大陆背景)

厂商代表模型/系列主要强项参数公开度开源情况一句话结论
Qwen(阿里)Qwen3、Qwen2.5、Qwen-VL、Qwen3-Omni、Qwen-Image通用、推理、代码、多模态、开源生态很高很高国内最全能、最透明、最适合兼顾商用与开源部署的模型家族之一
GLM(智谱)GLM-4、GLM-Z1、GLM-4.5、GLM-4.6V、GLM-5-Turbo通用、推理、Agent、多模态中等推理与 Agent 能力突出,开源线清晰,商业线更新快
Kimi(月之暗面)kimi-k2.5、kimi-k2、moonshot-v1长上下文、代码、Agentic Coding中等中等(部分)在代码和智能体场景辨识度非常高,适合复杂任务执行类应用
MiniMaxM2.x、Speech、Hailuo、Image、Music多模态产品线丰富,语音/视频突出较低中低更像“全模态产品矩阵型”厂商,语音、视频和内容生成覆盖广
DeepSeekV3、R1、V3.2、蒸馏系列推理、代码、开源、性价比很高很高最适合强调推理能力、参数透明度与开源部署的路线之一
Doubao / Seed(字节)Seed 2.0 Pro/Lite/Mini/Code、Doubao 系列通用、多模态、企业平台能力很低商业化和平台化能力强,但参数与内部细节公开较少

国产阵营简要判断

  • 如果你要 开源 + 可私有化 + 参数透明:优先看 Qwen、DeepSeek、GLM
  • 如果你要 AI 编程 / 智能体任务执行:优先看 Kimi、Qwen、DeepSeek、GLM
  • 如果你要 语音 / 视频 / 多模态产品矩阵:优先看 MiniMax、Qwen、Doubao/Seed、GLM
  • 如果你要 国内商业 API 快速接入:这 6 家都能看,但透明度差异很大

2. 国外厂商(海外背景)

厂商代表模型/系列主要强项参数公开度开源情况一句话结论
OpenAIGPT-5.4、GPT-4.1、GPT-4o、o3/o4、Realtime、Image、Sora通用、推理、代码、音频、图像、视频、生态很低闭源综合能力与产品生态最成熟之一,但参数最不透明
Gemini(Google)Gemini 2.5、2.0、1.5、Imagen、Veo原生多模态、长上下文、Google 生态很低低(Gemma 另算)多模态和上下文规格很强,商业线参数公开极少
Grok(xAI)Grok-4、Grok-4.1、Grok-4.20、grok-imagine-*长上下文、推理、图像/视频生成、X 生态联动较低中低迭代快、上下文长、产品风格鲜明,但公开参数仍有限

国外阵营简要判断

  • 如果你要 综合闭源能力上限:优先看 OpenAI、Gemini
  • 如果你要 长上下文 + 新型号迭代速度:优先看 Grok、OpenAI、Gemini
  • 如果你要 汇报里强调“参数规模”:国外闭源厂商通常不适合,因为公开得太少

3. 最简结论(适合直接放汇报首页)

国产看什么

  • Qwen:最均衡,开源生态最强之一
  • DeepSeek:推理与开源部署最亮眼之一
  • GLM:推理 + Agent + 商业线更新快
  • Kimi:代码与 Agentic Coding 很突出
  • MiniMax:语音 / 视频 / 内容生成产品线很丰富
  • Doubao / Seed:平台化能力强,但公开参数偏少

国外看什么

  • OpenAI:综合闭源能力与产品生态强
  • Gemini:原生多模态和长上下文强
  • Grok:长上下文、推理和生成式内容路线鲜明
最近更新 3/30/2026, 5:47:27 PM
目录