最低成本本地运行 70B 模型, V 友有哪些建议 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
请不要在回答技术问题时复制粘贴 AI 生成的内容
dafen7

最低成本本地运行 70B 模型, V 友有哪些建议

  •  
  •   dafen7 Nov 4, 2024 3649 views
    This topic created in 539 days ago, the information mentioned may be changed or developed.

    如题,最新体验英伟达的 70Bllama 感觉不错,打算搞个机器本地跑一跑。目前打算 x99 准系统+4*(p40/v100)搞一搞,有没有实践过的老哥评价下可行性,就奔着捡垃圾极致性价比来搞

    15 replies    2024-11-05 17:23:27 +08:00
    papersnake
        1
    papersnake  
       Nov 4, 2024
    4 * v100 跑 int8 量化没问题,速度可能会慢一点;占用大约 70GB 模型参数+20GB 的 kv 缓存
    penisulaS
        2
    penisulaS  
       Nov 4, 2024
    说实话,就算是捡垃圾,4 路 p40 也不便宜了。我觉得先租个云主机玩玩得了
    lithiumii
        3
    lithiumii  
       Nov 4, 2024 via Android
    最低成本? cpu 跑呗,搞 128G 内存,跑量化的版本
    xye0542
        4
    xye0542  
       Nov 4, 2024
    2080ti 魔改 22G 版本也行吧。价格应该比 v100 便宜。现在应该不到 3k 一张卡。也能支持 nvlink
    liu731
        5
    liu731  
    PRO
       Nov 4, 2024
    直接二手 4090 ,到时候不玩了卖也亏不了多少钱
    Hookery
        6
    Hookery  
       Nov 4, 2024
    70B 就不可能低成本。。。
    之前也想过低成本搞一套,P40 和 P100 都涨飞天了,而且还需要魔改散热,稳定性是堪忧的。多卡也需要电源,电源成本也跟着上来了。
    最低成本直接搞两张 P102 ,单张 200 ,两张 400 ,一共 20G 显存,可以玩 32B 的 4bit 量化。整机成本不破千。

    70B 显存需求大概在 40G 作用,最便宜就是两张 2080TI 22G ,两张卡都上 5K 了。
    Cusox
        7
    Cusox  
       Nov 4, 2024
    看看 https://github.com/SJTU-IPADS/PowerInfer ,有量化好的 70B llama 可以跑 https://huggingface.co/PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF ,限制显存可以在单卡上部署,不过好像对 70B 模型优化差点意思
    slowgen
        8
    slowgen  
       Nov 4, 2024
    P40 很垃圾的,10 张 P40 加一起速度还没到 M2 Ultra 的 1/3
    kuhung
        9
    kuhung  
       Nov 4, 2024
    我在看 mac 的大内存版本,还没确定是 M4Pro 的 mini 64G 还是 M2U 的 studio
    mmdsun
        10
    mmdsun  
       Nov 5, 2024 via iPhone
    魔改显卡,双显卡主机
    dafen7
        11
    dafen7  
    OP
       Nov 5, 2024
    @kuhung 我看了之前 mac mini 下面的评论,老哥们说带宽不行,还是不如显卡
    dafen7
        12
    dafen7  
    OP
       Nov 5, 2024
    @Hookery 就是想着除了显卡之外尽量压缩其他成本,目前看了咸鱼几个超微的 4u 准系统都要 2000-3000
    dafen7
        13
    dafen7  
    OP
       Nov 5, 2024
    @shuimugan macbookpro 能跑 70B 吗,我感觉真搞个 mac 大内存也行,不是说带宽不足吗
    Hookery
        14
    Hookery  
       Nov 5, 2024
    大模型不吃 CPU 啊,不一定必须上超微吧,除非你要 4 满速 PCIE 接口,民用主板才没有。
    slowgen
        15
    slowgen  
       Nov 5, 2024   1
    @dafen7 mac book pro 能跑 70B 吗?能
    带宽不足吗?不足,所以速度慢
    慢多少?带宽是 Ultra 的多少,速度就是 Ultra 的多少,看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素,而且模型越大,带宽瓶颈需求就越大,特别是 70B 这个体量,传输都不够了,算得再快都没用
    About     Help     Advertise     Blog     API     FAQ     Solana     3625 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 64ms UTC 00:39 PVG 08:39 LAX 17:39 JFK 20:39
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86