Files
notes/resource/ai/大模型安装笔记/Qwen3.5(通义千问 3.5)系列的多模态图文大模型(Vision-Language Models).md
T
Docker7530 7f14056210 1778682052
2026-05-13 22:20:54 +08:00

56 lines
7.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 1. 核心命名规则解析
- **数字B (如 397B, 27B)**:代表模型的**总参数量**Billion,十亿)。
- **-A+数字B (如 -A17B)**:代表模型的**激活参数量**Active Parameters)。只要带这个后缀,说明它采用了 **MoE(混合专家)架构**。推理时只有部分专家网络被激活,从而在保持极高模型能力的同时大幅降低显存和计算压力。
- **-Base**:代表**基础预训练模型**,没有经过人类指令微调(Instruct Tuning),适合开发者用来做二次微调。如果没有带 `-Base`,则默认是经过指令微调的对话模型(Instruct / Chat)。
- **-FP8 / -GPTQ-Int4**:代表模型的**量化版本**。用来压缩模型体积、降低显存占用并加速推理。
# 2. Qwen3.5 系列模型全景分类表
| 模型系列 | 完整模型名称 | 架构类型 | 总参数量 | 激活参数量 | 版本类型 | 精度 / 量化格式 | 适用场景 / 硬件要求 |
| :-------------- | :---------------------------- | :--- | :----- | :---- | :--- | :------------- | :----------------------------- |
| **超大规模 (MoE)** | `Qwen3.5-397B-A17B` | MoE | 约 403B | 17B | 指令微调 | BF16/FP16 (默认) | 极致性能,需超大型计算集群 |
| | `Qwen3.5-397B-A17B-FP8` | MoE | 约 403B | 17B | 指令微调 | FP8 | 极致性能,适合 H100 等支持 FP8 的集群 |
| | `Qwen3.5-397B-A17B-GPTQ-Int4` | MoE | 约 403B | 17B | 指令微调 | INT4 (GPTQ) | 大幅节省显存,适合多卡高端服务器 |
| **大规模 (MoE)** | `Qwen3.5-122B-A10B` | MoE | 约 125B | 10B | 指令微调 | BF16/FP16 (默认) | 顶尖多模态能力,企业级服务器 |
| | `Qwen3.5-122B-A10B-FP8` | MoE | 约 125B | 10B | 指令微调 | FP8 | 性能与效率的平衡,企业级部署 |
| | `Qwen3.5-122B-A10B-GPTQ-Int4` | MoE | 约 125B | 10B | 指令微调 | INT4 (GPTQ) | 适合双卡或四卡 24G/40G 显存设备部署 |
| **中大规模 (MoE)** | `Qwen3.5-35B-A3B` | MoE | 约 36B | 3B | 指令微调 | BF16/FP16 (默认) | 极高性价比,适合单卡高端 GPU (如 A100) |
| | `Qwen3.5-35B-A3B-Base` | MoE | 约 36B | 3B | 基础模型 | BF16/FP16 (默认) | 适合开发者进行垂直行业数据的二次微调 |
| | `Qwen3.5-35B-A3B-FP8` | MoE | 约 36B | 3B | 指令微调 | FP8 | 单卡高效推理 |
| | `Qwen3.5-35B-A3B-GPTQ-Int4` | MoE | 约 36B | 3B | 指令微调 | INT4 (GPTQ) | 消费级显卡(如 RTX 4090)可轻松运行 |
| **中型 (Dense)** | `Qwen3.5-27B` | 稠密 | 约 28B | 27B | 指令微调 | BF16/FP16 (默认) | 强大的稠密模型,常规服务器单卡部署 |
| | `Qwen3.5-27B-FP8` | 稠密 | 约 28B | 27B | 指令微调 | FP8 | 吞吐量更高的推理部署 |
| | `Qwen3.5-27B-GPTQ-Int4` | 稠密 | 约 28B | 27B | 指令微调 | INT4 (GPTQ) | 24G 消费级显卡(如 RTX 3090/4090)流畅运行 |
| **中小型 (Dense)** | `Qwen3.5-9B` | 稠密 | 约 10B | 9B | 指令微调 | BF16/FP16 (默认) | 优秀的泛用尺寸,适合一般消费级 GPU |
| | `Qwen3.5-9B-Base` | 稠密 | 约 10B | 9B | 基础模型 | BF16/FP16 (默认) | 适合中小企业/个人开发者微调 |
| **小型 (Dense)** | `Qwen3.5-4B` | 稠密 | 约 5B | 4B | 指令微调 | BF16/FP16 (默认) | 适合移动端、边缘设备或低配显卡运行 |
| | `Qwen3.5-4B-Base` | 稠密 | 约 5B | 4B | 基础模型 | BF16/FP16 (默认) | 轻量级微调使用 |
| **微型 (Dense)** | `Qwen3.5-2B` | 稠密 | 约 2B | 2B | 指令微调 | BF16/FP16 (默认) | 手机端侧、IoT 边缘计算设备部署 |
| | `Qwen3.5-2B-Base` | 稠密 | 约 2B | 2B | 基础模型 | BF16/FP16 (默认) | 端侧设备能力定制微调 |
| **极微型 (Dense)** | `Qwen3.5-0.8B` | 稠密 | 约 0.9B | 0.8B | 指令微调 | BF16/FP16 (默认) | 极限轻量化环境(如老旧手机、树莓派等) |
| | `Qwen3.5-0.8B-Base` | 稠密 | 约 0.9B | 0.8B | 基础模型 | BF16/FP16 (默认) | 极限轻量化微调 |
# 3. 三大核心维度的差异总结
1. **架构差异(MoE vs 稠密模型):**
- **MoE397B, 122B, 35B**:以 `397B-A17B` 为例,模型总参数虽高达近 4000 亿,但处理一张图片或一段文字时,实际工作的参数只有 170 亿(A17B)。这种架构能让模型拥有海量的知识库,同时推理速度极快,是当前大模型最前沿的设计。
- **稠密/Dense27B, 9B, 4B, 2B, 0.8B)**:传统架构,每次推理时所有的参数都会参与计算。例如 27B 模型,每次计算都要拉起 270 亿参数。
2. **版本差异(Instruct对话版 vs Base基座版):**
- **无后缀(如 Qwen3.5-9B)**:开箱即用,经过了人类偏好对齐,擅长听懂指令、回答问题、描述图片等,适合**直接用于应用开发**。
- **Base(如 Qwen3.5-9B-Base)**:只是学会了海量文本和图像的规律,但还不具备良好的“一问一答”对话能力,适合**算法工程师拿来做 SFT(监督微调)**。
3. **量化差异(默认 vs FP8 vs INT4):**
- **默认版本**:通常是 BF16(16位浮点数),精度最高,但显存占用极大(例如 122B 模型需要约 250GB+ 显存才能跑起来)。
- **FP8**:8位浮点数量化,精度损失极小,显存减半,但在最新的英伟达显卡(如 Hopper 架构的 H100、Ada 架构的 RTX 4090)上能获得原生硬件加速。
- **GPTQ-Int4**:4位整数极限压缩,显存占用仅为默认版本的 1/4 左右。让普通玩家也能在一两张消费级显卡上跑起 35B 甚至 122B 的庞然大物。
---
| 模型 | 部署门槛 | 兼容性要求 | 维护难度 |
| :-------------------------- | :---------------------- | :------------------------------------ | :------------------------------- |
| Qwen3.6-35B-A3B-FP8 | 极低,vLLM 一行命令启动,开箱即用 | NVIDIA 驱动≥535CUDA≥12.1,兼容性拉满,无坑 | 极低,显存冗余大,几乎不会 OOM,无需频繁调参 |
| Qwen3.5-122B-A10B-GPTQ-Int4 | 中等,需要适配 GPTQ 量化,需基础调优经验 | NVIDIA 驱动≥550,CUDA≥12.4,低版本驱动易出现兼容性问题 | 中等,需根据业务调整上下文长度、显存利用率参数,避免 OOM |
| Qwen3.6-35B-A3BBF16 | 极高,显存处于极限边缘,需严格控制所有参数 | 与 FP8 版一致,但对参数容错率极低 | 极高,并发 / 上下文稍微调整就会 OOM,生产环境维护成本极高 |