1778682052

This commit is contained in:
Docker7530
2026-05-13 22:20:54 +08:00
parent 6b50219f55
commit 7f14056210
96 changed files with 3297 additions and 354 deletions
@@ -45,3 +45,11 @@
- **默认版本**:通常是 BF16(16位浮点数),精度最高,但显存占用极大(例如 122B 模型需要约 250GB+ 显存才能跑起来)。
- **FP8**:8位浮点数量化,精度损失极小,显存减半,但在最新的英伟达显卡(如 Hopper 架构的 H100、Ada 架构的 RTX 4090)上能获得原生硬件加速。
- **GPTQ-Int4**:4位整数极限压缩,显存占用仅为默认版本的 1/4 左右。让普通玩家也能在一两张消费级显卡上跑起 35B 甚至 122B 的庞然大物。
---
| 模型 | 部署门槛 | 兼容性要求 | 维护难度 |
| :-------------------------- | :---------------------- | :------------------------------------ | :------------------------------- |
| Qwen3.6-35B-A3B-FP8 | 极低,vLLM 一行命令启动,开箱即用 | NVIDIA 驱动≥535CUDA≥12.1,兼容性拉满,无坑 | 极低,显存冗余大,几乎不会 OOM,无需频繁调参 |
| Qwen3.5-122B-A10B-GPTQ-Int4 | 中等,需要适配 GPTQ 量化,需基础调优经验 | NVIDIA 驱动≥550,CUDA≥12.4,低版本驱动易出现兼容性问题 | 中等,需根据业务调整上下文长度、显存利用率参数,避免 OOM |
| Qwen3.6-35B-A3BBF16 | 极高,显存处于极限边缘,需严格控制所有参数 | 与 FP8 版一致,但对参数容错率极低 | 极高,并发 / 上下文稍微调整就会 OOM,生产环境维护成本极高 |