Files
notes/resource/ai/大模型安装笔记/Qwen3.5(通义千问 3.5)系列的多模态图文大模型(Vision-Language Models).md
T
Docker7530 7f14056210 1778682052
2026-05-13 22:20:54 +08:00

7.3 KiB
Raw Blame History

1. 核心命名规则解析

  • 数字B (如 397B, 27B):代表模型的总参数量Billion,十亿)。
  • -A+数字B (如 -A17B):代表模型的激活参数量Active Parameters)。只要带这个后缀,说明它采用了 MoE(混合专家)架构。推理时只有部分专家网络被激活,从而在保持极高模型能力的同时大幅降低显存和计算压力。
  • -Base:代表基础预训练模型,没有经过人类指令微调(Instruct Tuning),适合开发者用来做二次微调。如果没有带 -Base,则默认是经过指令微调的对话模型(Instruct / Chat)。
  • -FP8 / -GPTQ-Int4:代表模型的量化版本。用来压缩模型体积、降低显存占用并加速推理。

2. Qwen3.5 系列模型全景分类表

模型系列 完整模型名称 架构类型 总参数量 激活参数量 版本类型 精度 / 量化格式 适用场景 / 硬件要求
超大规模 (MoE) Qwen3.5-397B-A17B MoE 约 403B 17B 指令微调 BF16/FP16 (默认) 极致性能,需超大型计算集群
Qwen3.5-397B-A17B-FP8 MoE 约 403B 17B 指令微调 FP8 极致性能,适合 H100 等支持 FP8 的集群
Qwen3.5-397B-A17B-GPTQ-Int4 MoE 约 403B 17B 指令微调 INT4 (GPTQ) 大幅节省显存,适合多卡高端服务器
大规模 (MoE) Qwen3.5-122B-A10B MoE 约 125B 10B 指令微调 BF16/FP16 (默认) 顶尖多模态能力,企业级服务器
Qwen3.5-122B-A10B-FP8 MoE 约 125B 10B 指令微调 FP8 性能与效率的平衡,企业级部署
Qwen3.5-122B-A10B-GPTQ-Int4 MoE 约 125B 10B 指令微调 INT4 (GPTQ) 适合双卡或四卡 24G/40G 显存设备部署
中大规模 (MoE) Qwen3.5-35B-A3B MoE 约 36B 3B 指令微调 BF16/FP16 (默认) 极高性价比,适合单卡高端 GPU (如 A100)
Qwen3.5-35B-A3B-Base MoE 约 36B 3B 基础模型 BF16/FP16 (默认) 适合开发者进行垂直行业数据的二次微调
Qwen3.5-35B-A3B-FP8 MoE 约 36B 3B 指令微调 FP8 单卡高效推理
Qwen3.5-35B-A3B-GPTQ-Int4 MoE 约 36B 3B 指令微调 INT4 (GPTQ) 消费级显卡(如 RTX 4090)可轻松运行
中型 (Dense) Qwen3.5-27B 稠密 约 28B 27B 指令微调 BF16/FP16 (默认) 强大的稠密模型,常规服务器单卡部署
Qwen3.5-27B-FP8 稠密 约 28B 27B 指令微调 FP8 吞吐量更高的推理部署
Qwen3.5-27B-GPTQ-Int4 稠密 约 28B 27B 指令微调 INT4 (GPTQ) 24G 消费级显卡(如 RTX 3090/4090)流畅运行
中小型 (Dense) Qwen3.5-9B 稠密 约 10B 9B 指令微调 BF16/FP16 (默认) 优秀的泛用尺寸,适合一般消费级 GPU
Qwen3.5-9B-Base 稠密 约 10B 9B 基础模型 BF16/FP16 (默认) 适合中小企业/个人开发者微调
小型 (Dense) Qwen3.5-4B 稠密 约 5B 4B 指令微调 BF16/FP16 (默认) 适合移动端、边缘设备或低配显卡运行
Qwen3.5-4B-Base 稠密 约 5B 4B 基础模型 BF16/FP16 (默认) 轻量级微调使用
微型 (Dense) Qwen3.5-2B 稠密 约 2B 2B 指令微调 BF16/FP16 (默认) 手机端侧、IoT 边缘计算设备部署
Qwen3.5-2B-Base 稠密 约 2B 2B 基础模型 BF16/FP16 (默认) 端侧设备能力定制微调
极微型 (Dense) Qwen3.5-0.8B 稠密 约 0.9B 0.8B 指令微调 BF16/FP16 (默认) 极限轻量化环境(如老旧手机、树莓派等)
Qwen3.5-0.8B-Base 稠密 约 0.9B 0.8B 基础模型 BF16/FP16 (默认) 极限轻量化微调

3. 三大核心维度的差异总结

  1. 架构差异(MoE vs 稠密模型):

    • MoE397B, 122B, 35B:以 397B-A17B 为例,模型总参数虽高达近 4000 亿,但处理一张图片或一段文字时,实际工作的参数只有 170 亿(A17B)。这种架构能让模型拥有海量的知识库,同时推理速度极快,是当前大模型最前沿的设计。
    • 稠密/Dense27B, 9B, 4B, 2B, 0.8B:传统架构,每次推理时所有的参数都会参与计算。例如 27B 模型,每次计算都要拉起 270 亿参数。
  2. 版本差异(Instruct对话版 vs Base基座版):

    • 无后缀(如 Qwen3.5-9B:开箱即用,经过了人类偏好对齐,擅长听懂指令、回答问题、描述图片等,适合直接用于应用开发
    • Base(如 Qwen3.5-9B-Base:只是学会了海量文本和图像的规律,但还不具备良好的“一问一答”对话能力,适合算法工程师拿来做 SFT(监督微调)
  3. 量化差异(默认 vs FP8 vs INT4):

    • 默认版本:通常是 BF16(16位浮点数),精度最高,但显存占用极大(例如 122B 模型需要约 250GB+ 显存才能跑起来)。
    • FP8:8位浮点数量化,精度损失极小,显存减半,但在最新的英伟达显卡(如 Hopper 架构的 H100、Ada 架构的 RTX 4090)上能获得原生硬件加速。
    • GPTQ-Int4:4位整数极限压缩,显存占用仅为默认版本的 1/4 左右。让普通玩家也能在一两张消费级显卡上跑起 35B 甚至 122B 的庞然大物。

模型 部署门槛 兼容性要求 维护难度
Qwen3.6-35B-A3B-FP8 极低,vLLM 一行命令启动,开箱即用 NVIDIA 驱动≥535CUDA≥12.1,兼容性拉满,无坑 极低,显存冗余大,几乎不会 OOM,无需频繁调参
Qwen3.5-122B-A10B-GPTQ-Int4 中等,需要适配 GPTQ 量化,需基础调优经验 NVIDIA 驱动≥550CUDA≥12.4,低版本驱动易出现兼容性问题 中等,需根据业务调整上下文长度、显存利用率参数,避免 OOM
Qwen3.6-35B-A3BBF16 极高,显存处于极限边缘,需严格控制所有参数 与 FP8 版一致,但对参数容错率极低 极高,并发 / 上下文稍微调整就会 OOM,生产环境维护成本极高