最低成本本地运行 70B 模型， V 友有哪些建议

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 539 days ago, the information mentioned may be changed or developed.

如题，最新体验英伟达的 70Bllama 感觉不错，打算搞个机器本地跑一跑。目前打算 x99 准系统+4*(p40/v100)搞一搞，有没有实践过的老哥评价下可行性，就奔着捡垃圾极致性价比来搞

本地运行

70B模型

性价比

15 replies 2024-11-05 17:23:27 +08:00

papersnake

Nov 4, 2024

4 * v100 跑 int8 量化没问题，速度可能会慢一点；占用大约 70GB 模型参数+20GB 的 kv 缓存

penisulaS

Nov 4, 2024

说实话，就算是捡垃圾，4 路 p40 也不便宜了。我觉得先租个云主机玩玩得了

lithiumii

Nov 4, 2024 via Android

最低成本？ cpu 跑呗，搞 128G 内存，跑量化的版本

xye0542

Nov 4, 2024

2080ti 魔改 22G 版本也行吧。价格应该比 v100 便宜。现在应该不到 3k 一张卡。也能支持 nvlink

liu731

PRO

Nov 4, 2024

直接二手 4090 ，到时候不玩了卖也亏不了多少钱

Hookery

Nov 4, 2024

70B 就不可能低成本。。。
之前也想过低成本搞一套，P40 和 P100 都涨飞天了，而且还需要魔改散热，稳定性是堪忧的。多卡也需要电源，电源成本也跟着上来了。
最低成本直接搞两张 P102 ，单张 200 ，两张 400 ，一共 20G 显存，可以玩 32B 的 4bit 量化。整机成本不破千。

70B 显存需求大概在 40G 作用，最便宜就是两张 2080TI 22G ，两张卡都上 5K 了。

Cusox

Nov 4, 2024

看看 https://github.com/SJTU-IPADS/PowerInfer ，有量化好的 70B llama 可以跑 https://huggingface.co/PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF ，限制显存可以在单卡上部署，不过好像对 70B 模型优化差点意思

slowgen

Nov 4, 2024

P40 很垃圾的，10 张 P40 加一起速度还没到 M2 Ultra 的 1/3

kuhung

Nov 4, 2024

我在看 mac 的大内存版本，还没确定是 M4Pro 的 mini 64G 还是 M2U 的 studio

mmdsun

Nov 5, 2024 via iPhone

魔改显卡，双显卡主机

dafen7

Nov 5, 2024

@kuhung 我看了之前 mac mini 下面的评论，老哥们说带宽不行，还是不如显卡

dafen7

Nov 5, 2024

@Hookery 就是想着除了显卡之外尽量压缩其他成本，目前看了咸鱼几个超微的 4u 准系统都要 2000-3000

dafen7

Nov 5, 2024

@shuimugan macbookpro 能跑 70B 吗，我感觉真搞个 mac 大内存也行，不是说带宽不足吗

Hookery

Nov 5, 2024

大模型不吃 CPU 啊，不一定必须上超微吧，除非你要 4 满速 PCIE 接口，民用主板才没有。

slowgen

Nov 5, 2024

@dafen7 mac book pro 能跑 70B 吗？能
带宽不足吗？不足，所以速度慢
慢多少？带宽是 Ultra 的多少，速度就是 Ultra 的多少，看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素，而且模型越大，带宽瓶颈需求就越大，特别是 70B 这个体量，传输都不够了，算得再快都没用