1. 核心命名规则解析

数字B (如 397B, 27B)：代表模型的总参数量（Billion，十亿）。
-A+数字B (如 -A17B)：代表模型的激活参数量（Active Parameters）。只要带这个后缀，说明它采用了 MoE（混合专家）架构。推理时只有部分专家网络被激活，从而在保持极高模型能力的同时大幅降低显存和计算压力。
-Base：代表基础预训练模型，没有经过人类指令微调（Instruct Tuning），适合开发者用来做二次微调。如果没有带 -Base，则默认是经过指令微调的对话模型（Instruct / Chat）。
-FP8 / -GPTQ-Int4：代表模型的量化版本。用来压缩模型体积、降低显存占用并加速推理。

2. Qwen3.5 系列模型全景分类表

模型系列	完整模型名称	架构类型	总参数量	激活参数量	版本类型	精度 / 量化格式	适用场景 / 硬件要求
超大规模 (MoE)	`Qwen3.5-397B-A17B`	MoE	约 403B	17B	指令微调	BF16/FP16 (默认)	极致性能，需超大型计算集群
	`Qwen3.5-397B-A17B-FP8`	MoE	约 403B	17B	指令微调	FP8	极致性能，适合 H100 等支持 FP8 的集群
	`Qwen3.5-397B-A17B-GPTQ-Int4`	MoE	约 403B	17B	指令微调	INT4 (GPTQ)	大幅节省显存，适合多卡高端服务器
大规模 (MoE)	`Qwen3.5-122B-A10B`	MoE	约 125B	10B	指令微调	BF16/FP16 (默认)	顶尖多模态能力，企业级服务器
	`Qwen3.5-122B-A10B-FP8`	MoE	约 125B	10B	指令微调	FP8	性能与效率的平衡，企业级部署
	`Qwen3.5-122B-A10B-GPTQ-Int4`	MoE	约 125B	10B	指令微调	INT4 (GPTQ)	适合双卡或四卡 24G/40G 显存设备部署
中大规模 (MoE)	`Qwen3.5-35B-A3B`	MoE	约 36B	3B	指令微调	BF16/FP16 (默认)	极高性价比，适合单卡高端 GPU (如 A100)
	`Qwen3.5-35B-A3B-Base`	MoE	约 36B	3B	基础模型	BF16/FP16 (默认)	适合开发者进行垂直行业数据的二次微调
	`Qwen3.5-35B-A3B-FP8`	MoE	约 36B	3B	指令微调	FP8	单卡高效推理
	`Qwen3.5-35B-A3B-GPTQ-Int4`	MoE	约 36B	3B	指令微调	INT4 (GPTQ)	消费级显卡（如 RTX 4090）可轻松运行
中型 (Dense)	`Qwen3.5-27B`	稠密	约 28B	27B	指令微调	BF16/FP16 (默认)	强大的稠密模型，常规服务器单卡部署
	`Qwen3.5-27B-FP8`	稠密	约 28B	27B	指令微调	FP8	吞吐量更高的推理部署
	`Qwen3.5-27B-GPTQ-Int4`	稠密	约 28B	27B	指令微调	INT4 (GPTQ)	24G 消费级显卡（如 RTX 3090/4090）流畅运行
中小型 (Dense)	`Qwen3.5-9B`	稠密	约 10B	9B	指令微调	BF16/FP16 (默认)	优秀的泛用尺寸，适合一般消费级 GPU
	`Qwen3.5-9B-Base`	稠密	约 10B	9B	基础模型	BF16/FP16 (默认)	适合中小企业/个人开发者微调
小型 (Dense)	`Qwen3.5-4B`	稠密	约 5B	4B	指令微调	BF16/FP16 (默认)	适合移动端、边缘设备或低配显卡运行
	`Qwen3.5-4B-Base`	稠密	约 5B	4B	基础模型	BF16/FP16 (默认)	轻量级微调使用
微型 (Dense)	`Qwen3.5-2B`	稠密	约 2B	2B	指令微调	BF16/FP16 (默认)	手机端侧、IoT 边缘计算设备部署
	`Qwen3.5-2B-Base`	稠密	约 2B	2B	基础模型	BF16/FP16 (默认)	端侧设备能力定制微调
极微型 (Dense)	`Qwen3.5-0.8B`	稠密	约 0.9B	0.8B	指令微调	BF16/FP16 (默认)	极限轻量化环境（如老旧手机、树莓派等）
	`Qwen3.5-0.8B-Base`	稠密	约 0.9B	0.8B	基础模型	BF16/FP16 (默认)	极限轻量化微调

3. 三大核心维度的差异总结

架构差异（MoE vs 稠密模型）：
- MoE（397B, 122B, 35B）：以 397B-A17B 为例，模型总参数虽高达近 4000 亿，但处理一张图片或一段文字时，实际工作的参数只有 170 亿（A17B）。这种架构能让模型拥有海量的知识库，同时推理速度极快，是当前大模型最前沿的设计。
- 稠密/Dense（27B, 9B, 4B, 2B, 0.8B）：传统架构，每次推理时所有的参数都会参与计算。例如 27B 模型，每次计算都要拉起 270 亿参数。
版本差异（Instruct对话版 vs Base基座版）：
- 无后缀（如 Qwen3.5-9B）：开箱即用，经过了人类偏好对齐，擅长听懂指令、回答问题、描述图片等，适合直接用于应用开发。
- Base（如 Qwen3.5-9B-Base）：只是学会了海量文本和图像的规律，但还不具备良好的“一问一答”对话能力，适合算法工程师拿来做 SFT（监督微调）。
量化差异（默认 vs FP8 vs INT4）：
- 默认版本：通常是 BF16（16位浮点数），精度最高，但显存占用极大（例如 122B 模型需要约 250GB+ 显存才能跑起来）。
- FP8：8位浮点数量化，精度损失极小，显存减半，但在最新的英伟达显卡（如 Hopper 架构的 H100、Ada 架构的 RTX 4090）上能获得原生硬件加速。
- GPTQ-Int4：4位整数极限压缩，显存占用仅为默认版本的 1/4 左右。让普通玩家也能在一两张消费级显卡上跑起 35B 甚至 122B 的庞然大物。

模型	部署门槛	兼容性要求	维护难度
Qwen3.6-35B-A3B-FP8	极低，vLLM 一行命令启动，开箱即用	NVIDIA 驱动≥535，CUDA≥12.1，兼容性拉满，无坑	极低，显存冗余大，几乎不会 OOM，无需频繁调参
Qwen3.5-122B-A10B-GPTQ-Int4	中等，需要适配 GPTQ 量化，需基础调优经验	NVIDIA 驱动≥550，CUDA≥12.4，低版本驱动易出现兼容性问题	中等，需根据业务调整上下文长度、显存利用率参数，避免 OOM
Qwen3.6-35B-A3B（BF16）	极高，显存处于极限边缘，需严格控制所有参数	与 FP8 版一致，但对参数容错率极低	极高，并发 / 上下文稍微调整就会 OOM，生产环境维护成本极高

7.3 KiB Raw Blame History Unescape Escape

1. 核心命名规则解析

2. Qwen3.5 系列模型全景分类表

3. 三大核心维度的差异总结

7.3 KiB

Raw Blame History