notes/resource/ai/大模型安装笔记/Qwen3.5（通义千问 3.5）系列的多模态图文大模型（Vision-Language Models）.md

# 1. 核心命名规则解析

- **数字B (如 397B, 27B)**：代表模型的**总参数量**（Billion，十亿）。
- **-A+数字B (如 -A17B)**：代表模型的**激活参数量**（Active Parameters）。只要带这个后缀，说明它采用了 **MoE（混合专家）架构**。推理时只有部分专家网络被激活，从而在保持极高模型能力的同时大幅降低显存和计算压力。
- **-Base**：代表**基础预训练模型**，没有经过人类指令微调（Instruct Tuning），适合开发者用来做二次微调。如果没有带 `-Base`，则默认是经过指令微调的对话模型（Instruct / Chat）。
- **-FP8 / -GPTQ-Int4**：代表模型的**量化版本**。用来压缩模型体积、降低显存占用并加速推理。

# 2. Qwen3.5 系列模型全景分类表

| 模型系列            | 完整模型名称                        | 架构类型 | 总参数量   | 激活参数量 | 版本类型 | 精度 / 量化格式      | 适用场景 / 硬件要求                    |
| :-------------- | :---------------------------- | :--- | :----- | :---- | :--- | :------------- | :----------------------------- |
| **超大规模 (MoE)**  | `Qwen3.5-397B-A17B`           | MoE  | 约 403B | 17B   | 指令微调 | BF16/FP16 (默认) | 极致性能，需超大型计算集群                  |
|                 | `Qwen3.5-397B-A17B-FP8`       | MoE  | 约 403B | 17B   | 指令微调 | FP8            | 极致性能，适合 H100 等支持 FP8 的集群       |
|                 | `Qwen3.5-397B-A17B-GPTQ-Int4` | MoE  | 约 403B | 17B   | 指令微调 | INT4 (GPTQ)    | 大幅节省显存，适合多卡高端服务器               |
| **大规模 (MoE)**   | `Qwen3.5-122B-A10B`           | MoE  | 约 125B | 10B   | 指令微调 | BF16/FP16 (默认) | 顶尖多模态能力，企业级服务器                 |
|                 | `Qwen3.5-122B-A10B-FP8`       | MoE  | 约 125B | 10B   | 指令微调 | FP8            | 性能与效率的平衡，企业级部署                 |
|                 | `Qwen3.5-122B-A10B-GPTQ-Int4` | MoE  | 约 125B | 10B   | 指令微调 | INT4 (GPTQ)    | 适合双卡或四卡 24G/40G 显存设备部署         |
| **中大规模 (MoE)**  | `Qwen3.5-35B-A3B`             | MoE  | 约 36B  | 3B    | 指令微调 | BF16/FP16 (默认) | 极高性价比，适合单卡高端 GPU (如 A100)      |
|                 | `Qwen3.5-35B-A3B-Base`        | MoE  | 约 36B  | 3B    | 基础模型 | BF16/FP16 (默认) | 适合开发者进行垂直行业数据的二次微调             |
|                 | `Qwen3.5-35B-A3B-FP8`         | MoE  | 约 36B  | 3B    | 指令微调 | FP8            | 单卡高效推理                         |
|                 | `Qwen3.5-35B-A3B-GPTQ-Int4`   | MoE  | 约 36B  | 3B    | 指令微调 | INT4 (GPTQ)    | 消费级显卡（如 RTX 4090）可轻松运行         |
| **中型 (Dense)**  | `Qwen3.5-27B`                 | 稠密   | 约 28B  | 27B   | 指令微调 | BF16/FP16 (默认) | 强大的稠密模型，常规服务器单卡部署              |
|                 | `Qwen3.5-27B-FP8`             | 稠密   | 约 28B  | 27B   | 指令微调 | FP8            | 吞吐量更高的推理部署                     |
|                 | `Qwen3.5-27B-GPTQ-Int4`       | 稠密   | 约 28B  | 27B   | 指令微调 | INT4 (GPTQ)    | 24G 消费级显卡（如 RTX 3090/4090）流畅运行 |
| **中小型 (Dense)** | `Qwen3.5-9B`                  | 稠密   | 约 10B  | 9B    | 指令微调 | BF16/FP16 (默认) | 优秀的泛用尺寸，适合一般消费级 GPU            |
|                 | `Qwen3.5-9B-Base`             | 稠密   | 约 10B  | 9B    | 基础模型 | BF16/FP16 (默认) | 适合中小企业/个人开发者微调                 |
| **小型 (Dense)**  | `Qwen3.5-4B`                  | 稠密   | 约 5B   | 4B    | 指令微调 | BF16/FP16 (默认) | 适合移动端、边缘设备或低配显卡运行              |
|                 | `Qwen3.5-4B-Base`             | 稠密   | 约 5B   | 4B    | 基础模型 | BF16/FP16 (默认) | 轻量级微调使用                        |
| **微型 (Dense)**  | `Qwen3.5-2B`                  | 稠密   | 约 2B   | 2B    | 指令微调 | BF16/FP16 (默认) | 手机端侧、IoT 边缘计算设备部署              |
|                 | `Qwen3.5-2B-Base`             | 稠密   | 约 2B   | 2B    | 基础模型 | BF16/FP16 (默认) | 端侧设备能力定制微调                     |
| **极微型 (Dense)** | `Qwen3.5-0.8B`                | 稠密   | 约 0.9B | 0.8B  | 指令微调 | BF16/FP16 (默认) | 极限轻量化环境（如老旧手机、树莓派等）            |
|                 | `Qwen3.5-0.8B-Base`           | 稠密   | 约 0.9B | 0.8B  | 基础模型 | BF16/FP16 (默认) | 极限轻量化微调                        |

# 3. 三大核心维度的差异总结

1. **架构差异（MoE vs 稠密模型）：**
   - **MoE（397B, 122B, 35B）**：以 `397B-A17B` 为例，模型总参数虽高达近 4000 亿，但处理一张图片或一段文字时，实际工作的参数只有 170 亿（A17B）。这种架构能让模型拥有海量的知识库，同时推理速度极快，是当前大模型最前沿的设计。
   - **稠密/Dense（27B, 9B, 4B, 2B, 0.8B）**：传统架构，每次推理时所有的参数都会参与计算。例如 27B 模型，每次计算都要拉起 270 亿参数。

2. **版本差异（Instruct对话版 vs Base基座版）：**
   - **无后缀（如 Qwen3.5-9B）**：开箱即用，经过了人类偏好对齐，擅长听懂指令、回答问题、描述图片等，适合**直接用于应用开发**。
   - **Base（如 Qwen3.5-9B-Base）**：只是学会了海量文本和图像的规律，但还不具备良好的“一问一答”对话能力，适合**算法工程师拿来做 SFT（监督微调）**。

3. **量化差异（默认 vs FP8 vs INT4）：**
   - **默认版本**：通常是 BF16（16位浮点数），精度最高，但显存占用极大（例如 122B 模型需要约 250GB+ 显存才能跑起来）。
   - **FP8**：8位浮点数量化，精度损失极小，显存减半，但在最新的英伟达显卡（如 Hopper 架构的 H100、Ada 架构的 RTX 4090）上能获得原生硬件加速。
   - **GPTQ-Int4**：4位整数极限压缩，显存占用仅为默认版本的 1/4 左右。让普通玩家也能在一两张消费级显卡上跑起 35B 甚至 122B 的庞然大物。

---

| 模型                          | 部署门槛                    | 兼容性要求                                 | 维护难度                             |
| :-------------------------- | :---------------------- | :------------------------------------ | :------------------------------- |
| Qwen3.6-35B-A3B-FP8         | 极低，vLLM 一行命令启动，开箱即用     | NVIDIA 驱动≥535，CUDA≥12.1，兼容性拉满，无坑      | 极低，显存冗余大，几乎不会 OOM，无需频繁调参         |
| Qwen3.5-122B-A10B-GPTQ-Int4 | 中等，需要适配 GPTQ 量化，需基础调优经验 | NVIDIA 驱动≥550，CUDA≥12.4，低版本驱动易出现兼容性问题 | 中等，需根据业务调整上下文长度、显存利用率参数，避免 OOM   |
| Qwen3.6-35B-A3B（BF16）       | 极高，显存处于极限边缘，需严格控制所有参数   | 与 FP8 版一致，但对参数容错率极低                   | 极高，并发 / 上下文稍微调整就会 OOM，生产环境维护成本极高 |