
1 dayeye2006199 2025 年 2 月 16 日 sglang |
2 raycool 2025 年 2 月 16 日 是 404G 大小的模型文件吗? 这个 8 卡可以部署成功? |
4 zhyim OP @dayeye2006199 也是不支持 deepseek2 ,我下载的别人的量化模型,单 gguf |
5 JackyTsang 2025 年 2 月 17 日 SGLang 部署。 |
6 haimianbihdata 2025 年 3 月 3 日 @JackyTsang 这个支持并发怎样 |
7 weiming 2025 年 3 月 4 日 vllm + awq 量化 |
9 weiming 2025 年 3 月 4 日 @zhyim 不应该啊,我用 A800x8 都有 30t/s 。用这个配置, https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ |
11 volvo007 2025 年 3 月 4 日 请问 op ,8 卡的外部设备是什么。比如这 8 张卡都是 pcie 版本吗?那不是只能通过 pcie 通信,速度上不去吧。而使用 nvlink 的话,还不如直接买 HGX 节点?因为最近我们这也想部署,但是一开始是双卡,后面会慢慢加,所以来请教一下 |
14 weiming 2025 年 3 月 4 日 @zhyim vllm 0.7.2 awq Parallel request Token per second ( Total ) Token per second(per request) 1 30 30 10 81 10 30 144 6.2 50 180 5 |
15 weiming 2025 年 3 月 4 日 4 并发 17t/s 。a800 没有原生 fp8 支持,算力大打折扣。而且最近 vllm 在 H 系列上的优化 patch 挺多的,拍脑袋至少还能再快个 30%。 |