想整台 macbook pro 跑 llama3 70b,请问用啥配置合适? M3 max 128G? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
idblife
7.51D
V2EX    MacBook Pro

想整台 macbook pro 跑 llama3 70b,请问用啥配置合适? M3 max 128G?

  •  
  •   idblife 2024 年 5 月 9 日 3578 次点击
    这是一个创建于 635 天前的主题,其中的信息可能已经有所发展或是发生改变。
    据说 llama3 70b 能接近 gpt4 的效果,有用过的兄弟没?
    19 条回复    2024-05-22 14:13:54 +08:00
    nino
        1
    nino  
       2024 年 5 月 9 日
    128G 可以跑起来 70b ,但是还是挺慢的,没有什么实用性,本地还是跑 8b 的合适。追求效果还是买 Groq ,DeepSeek 之类的吧。
    maolon
        2
    maolon  
       2024 年 5 月 9 日 via Android
    接近是接近,推理和跟随用户指令上来说还是差点意思,中文能力更差点意思,另外用 groq 就可以了,个人用直接免费那一档不会超限制。
    idblife
        3
    idblife  
    OP
       2024 年 5 月 9 日
    多谢 #1 #2 ,groq 还是不错的,哈哈
    jimmy
        4
    jimmy  
       2024 年 5 月 9 日
    MBP M2 Max 64G 跑 Llama3 8B 速度很快,效果么,没对比过不知道具体情况。
    idblife
        5
    idblife  
    OP
       2024 年 5 月 9 日
    @jimmy #4
    还是想试试 70b 的 llama3
    Rorysky
        6
    Rorysky  
       2024 年 5 月 10 日
    16gb 能跑什么模型
    keakon
        7
    keakon  
       2024 年 5 月 10 日   2
    @Rorysky 跑过 7B int8 的推理,每秒大概 20 tokens
    uCVqn130hR86WDU8
        8
    uCVqn130hR86WDU8  
       2024 年 5 月 10 日   1
    你只是单纯想买台新电脑
    icestraw
        9
    icestraw  
       2024 年 5 月 10 日 via Android   1
    我用过,得用压缩后的。q8 大概会占用 70G 的内存,只是对话的话可以正常进行。效果只能说能正常对话,想要处理点工作估计够呛。
    winson030
        10
    winson030  
       2024 年 5 月 10 日
    好奇个人用户在本地跑这么大的模型需求点是啥?我算了下,70b 这种大模型用 api (加上解决网络问题)花的钱比自己攒机器跑要便宜很多。本地运行 llama3 8b 这种模型倒是很合适。目前我的想法是,找机会把各种大模型平台的 API 都开了(反正都是 pay as you go ),整合到 one api 里,想用哪个用哪个。本地机器跑小模型,保证输出效率
    qweruiop
        11
    qweruiop  
       2024 年 5 月 10 日
    很慢。。。m3 max 128 走过。。。老老实实买 4090 吧。。。
    idblife
        12
    idblife  
    OP
       2024 年 5 月 10 日
    @winson030 #10
    本机做一些相关的实验或者小玩具,另外可以顺道换台新机器啊,哈哈
    Chihaya0824
        13
    Chihaya0824  
    PRO
       2024 年 5 月 10 日
    q4 64g 的都能跑,大概 8tokens/s ,4090 想跑还得买两个,但是会快特别多
    wclebb
        14
    wclebb  
       2024 年 5 月 10 日 via iPhone
    @qweruiop 4090 24G 跑不了,很多模型需要显存/内存容量大才能跑。如果我没记错,70B 24G 是跑不了的。

    但 128G 勉强能跑。
    volvo007
        15
    volvo007  
       2024 年 5 月 10 日 via iPhone
    在等公司的 H800 计算节点下来,可能禁运影响只能买 A800 的,那也行啊,慢归慢点,显存还是 640G ,能玩好多东西
    moudy
        16
    moudy  
       2024 年 5 月 10 日
    ipad pro 刚上 m4 ,建议观望一下下个月发布会,看看 mbp 会不会也上 m4
    idblife
        17
    idblife  
    OP
       2024 年 5 月 10 日
    @volvo007
    羡慕
    jimmy
        18
    jimmy  
       2024 年 5 月 10 日   1
    @idblife 试了一下,响应时间大概 20 秒,内容大概一秒钟 5 个字
    wsbqdyhm
        19
    wsbqdyhm  
       2024 年 5 月 22 日
    我用 m1max64g 跑的这个,只能说能用吧,有点慢,gpu 占用 70-80%
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1954 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 00:28 PVG 08:28 LAX 16:28 JFK 19:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86