1778682052

2026-05-13 22:20:54 +08:00
parent 6b50219f55
commit 7f14056210
96 changed files with 3297 additions and 354 deletions
@@ -45,3 +45,11 @@
   - **默认版本**：通常是 BF16（16位浮点数），精度最高，但显存占用极大（例如 122B 模型需要约 250GB+ 显存才能跑起来）。
   - **FP8**：8位浮点数量化，精度损失极小，显存减半，但在最新的英伟达显卡（如 Hopper 架构的 H100、Ada 架构的 RTX 4090）上能获得原生硬件加速。
   - **GPTQ-Int4**：4位整数极限压缩，显存占用仅为默认版本的 1/4 左右。让普通玩家也能在一两张消费级显卡上跑起 35B 甚至 122B 的庞然大物。
+
+---
+
+| 模型                          | 部署门槛                    | 兼容性要求                                 | 维护难度                             |
+| :-------------------------- | :---------------------- | :------------------------------------ | :------------------------------- |
+| Qwen3.6-35B-A3B-FP8         | 极低，vLLM 一行命令启动，开箱即用     | NVIDIA 驱动≥535，CUDA≥12.1，兼容性拉满，无坑      | 极低，显存冗余大，几乎不会 OOM，无需频繁调参         |
+| Qwen3.5-122B-A10B-GPTQ-Int4 | 中等，需要适配 GPTQ 量化，需基础调优经验 | NVIDIA 驱动≥550，CUDA≥12.4，低版本驱动易出现兼容性问题 | 中等，需根据业务调整上下文长度、显存利用率参数，避免 OOM   |
+| Qwen3.6-35B-A3B（BF16）       | 极高，显存处于极限边缘，需严格控制所有参数   | 与 FP8 版一致，但对参数容错率极低                   | 极高，并发 / 上下文稍微调整就会 OOM，生产环境维护成本极高 |