
如题,最新体验英伟达的 70Bllama 感觉不错,打算搞个机器本地跑一跑。目前打算 x99 准系统+4*(p40/v100)搞一搞,有没有实践过的老哥评价下可行性,就奔着捡垃圾极致性价比来搞
1 papersnake Nov 4, 2024 4 * v100 跑 int8 量化没问题,速度可能会慢一点;占用大约 70GB 模型参数+20GB 的 kv 缓存 |
2 penisulaS Nov 4, 2024 说实话,就算是捡垃圾,4 路 p40 也不便宜了。我觉得先租个云主机玩玩得了 |
3 lithiumii Nov 4, 2024 via Android 最低成本? cpu 跑呗,搞 128G 内存,跑量化的版本 |
4 xye0542 Nov 4, 2024 2080ti 魔改 22G 版本也行吧。价格应该比 v100 便宜。现在应该不到 3k 一张卡。也能支持 nvlink |
5 liu731 PRO 直接二手 4090 ,到时候不玩了卖也亏不了多少钱 |
6 Hookery Nov 4, 2024 70B 就不可能低成本。。。 之前也想过低成本搞一套,P40 和 P100 都涨飞天了,而且还需要魔改散热,稳定性是堪忧的。多卡也需要电源,电源成本也跟着上来了。 最低成本直接搞两张 P102 ,单张 200 ,两张 400 ,一共 20G 显存,可以玩 32B 的 4bit 量化。整机成本不破千。 70B 显存需求大概在 40G 作用,最便宜就是两张 2080TI 22G ,两张卡都上 5K 了。 |
7 Cusox Nov 4, 2024 看看 https://github.com/SJTU-IPADS/PowerInfer ,有量化好的 70B llama 可以跑 https://huggingface.co/PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF ,限制显存可以在单卡上部署,不过好像对 70B 模型优化差点意思 |
8 slowgen Nov 4, 2024 P40 很垃圾的,10 张 P40 加一起速度还没到 M2 Ultra 的 1/3 |
9 kuhung Nov 4, 2024 我在看 mac 的大内存版本,还没确定是 M4Pro 的 mini 64G 还是 M2U 的 studio |
10 mmdsun Nov 5, 2024 via iPhone 魔改显卡,双显卡主机 |
14 Hookery Nov 5, 2024 大模型不吃 CPU 啊,不一定必须上超微吧,除非你要 4 满速 PCIE 接口,民用主板才没有。 |
15 slowgen Nov 5, 2024 @dafen7 mac book pro 能跑 70B 吗?能 带宽不足吗?不足,所以速度慢 慢多少?带宽是 Ultra 的多少,速度就是 Ultra 的多少,看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素,而且模型越大,带宽瓶颈需求就越大,特别是 70B 这个体量,传输都不够了,算得再快都没用 |