6.3 KiB
6.3 KiB
1. 核心命名规则解析
- 数字B (如 397B, 27B):代表模型的总参数量(Billion,十亿)。
- -A+数字B (如 -A17B):代表模型的激活参数量(Active Parameters)。只要带这个后缀,说明它采用了 MoE(混合专家)架构。推理时只有部分专家网络被激活,从而在保持极高模型能力的同时大幅降低显存和计算压力。
- -Base:代表基础预训练模型,没有经过人类指令微调(Instruct Tuning),适合开发者用来做二次微调。如果没有带
-Base,则默认是经过指令微调的对话模型(Instruct / Chat)。 - -FP8 / -GPTQ-Int4:代表模型的量化版本。用来压缩模型体积、降低显存占用并加速推理。
2. Qwen3.5 系列模型全景分类表
| 模型系列 | 完整模型名称 | 架构类型 | 总参数量 | 激活参数量 | 版本类型 | 精度 / 量化格式 | 适用场景 / 硬件要求 |
|---|---|---|---|---|---|---|---|
| 超大规模 (MoE) | Qwen3.5-397B-A17B |
MoE | 约 403B | 17B | 指令微调 | BF16/FP16 (默认) | 极致性能,需超大型计算集群 |
Qwen3.5-397B-A17B-FP8 |
MoE | 约 403B | 17B | 指令微调 | FP8 | 极致性能,适合 H100 等支持 FP8 的集群 | |
Qwen3.5-397B-A17B-GPTQ-Int4 |
MoE | 约 403B | 17B | 指令微调 | INT4 (GPTQ) | 大幅节省显存,适合多卡高端服务器 | |
| 大规模 (MoE) | Qwen3.5-122B-A10B |
MoE | 约 125B | 10B | 指令微调 | BF16/FP16 (默认) | 顶尖多模态能力,企业级服务器 |
Qwen3.5-122B-A10B-FP8 |
MoE | 约 125B | 10B | 指令微调 | FP8 | 性能与效率的平衡,企业级部署 | |
Qwen3.5-122B-A10B-GPTQ-Int4 |
MoE | 约 125B | 10B | 指令微调 | INT4 (GPTQ) | 适合双卡或四卡 24G/40G 显存设备部署 | |
| 中大规模 (MoE) | Qwen3.5-35B-A3B |
MoE | 约 36B | 3B | 指令微调 | BF16/FP16 (默认) | 极高性价比,适合单卡高端 GPU (如 A100) |
Qwen3.5-35B-A3B-Base |
MoE | 约 36B | 3B | 基础模型 | BF16/FP16 (默认) | 适合开发者进行垂直行业数据的二次微调 | |
Qwen3.5-35B-A3B-FP8 |
MoE | 约 36B | 3B | 指令微调 | FP8 | 单卡高效推理 | |
Qwen3.5-35B-A3B-GPTQ-Int4 |
MoE | 约 36B | 3B | 指令微调 | INT4 (GPTQ) | 消费级显卡(如 RTX 4090)可轻松运行 | |
| 中型 (Dense) | Qwen3.5-27B |
稠密 | 约 28B | 27B | 指令微调 | BF16/FP16 (默认) | 强大的稠密模型,常规服务器单卡部署 |
Qwen3.5-27B-FP8 |
稠密 | 约 28B | 27B | 指令微调 | FP8 | 吞吐量更高的推理部署 | |
Qwen3.5-27B-GPTQ-Int4 |
稠密 | 约 28B | 27B | 指令微调 | INT4 (GPTQ) | 24G 消费级显卡(如 RTX 3090/4090)流畅运行 | |
| 中小型 (Dense) | Qwen3.5-9B |
稠密 | 约 10B | 9B | 指令微调 | BF16/FP16 (默认) | 优秀的泛用尺寸,适合一般消费级 GPU |
Qwen3.5-9B-Base |
稠密 | 约 10B | 9B | 基础模型 | BF16/FP16 (默认) | 适合中小企业/个人开发者微调 | |
| 小型 (Dense) | Qwen3.5-4B |
稠密 | 约 5B | 4B | 指令微调 | BF16/FP16 (默认) | 适合移动端、边缘设备或低配显卡运行 |
Qwen3.5-4B-Base |
稠密 | 约 5B | 4B | 基础模型 | BF16/FP16 (默认) | 轻量级微调使用 | |
| 微型 (Dense) | Qwen3.5-2B |
稠密 | 约 2B | 2B | 指令微调 | BF16/FP16 (默认) | 手机端侧、IoT 边缘计算设备部署 |
Qwen3.5-2B-Base |
稠密 | 约 2B | 2B | 基础模型 | BF16/FP16 (默认) | 端侧设备能力定制微调 | |
| 极微型 (Dense) | Qwen3.5-0.8B |
稠密 | 约 0.9B | 0.8B | 指令微调 | BF16/FP16 (默认) | 极限轻量化环境(如老旧手机、树莓派等) |
Qwen3.5-0.8B-Base |
稠密 | 约 0.9B | 0.8B | 基础模型 | BF16/FP16 (默认) | 极限轻量化微调 |
3. 三大核心维度的差异总结
-
架构差异(MoE vs 稠密模型):
- MoE(397B, 122B, 35B):以
397B-A17B为例,模型总参数虽高达近 4000 亿,但处理一张图片或一段文字时,实际工作的参数只有 170 亿(A17B)。这种架构能让模型拥有海量的知识库,同时推理速度极快,是当前大模型最前沿的设计。 - 稠密/Dense(27B, 9B, 4B, 2B, 0.8B):传统架构,每次推理时所有的参数都会参与计算。例如 27B 模型,每次计算都要拉起 270 亿参数。
- MoE(397B, 122B, 35B):以
-
版本差异(Instruct对话版 vs Base基座版):
- 无后缀(如 Qwen3.5-9B):开箱即用,经过了人类偏好对齐,擅长听懂指令、回答问题、描述图片等,适合直接用于应用开发。
- Base(如 Qwen3.5-9B-Base):只是学会了海量文本和图像的规律,但还不具备良好的“一问一答”对话能力,适合算法工程师拿来做 SFT(监督微调)。
-
量化差异(默认 vs FP8 vs INT4):
- 默认版本:通常是 BF16(16位浮点数),精度最高,但显存占用极大(例如 122B 模型需要约 250GB+ 显存才能跑起来)。
- FP8:8位浮点数量化,精度损失极小,显存减半,但在最新的英伟达显卡(如 Hopper 架构的 H100、Ada 架构的 RTX 4090)上能获得原生硬件加速。
- GPTQ-Int4:4位整数极限压缩,显存占用仅为默认版本的 1/4 左右。让普通玩家也能在一两张消费级显卡上跑起 35B 甚至 122B 的庞然大物。