关于 5070ti 模型推理的速度和本地部署思考 - V2EX
tootfsg

关于 5070ti 模型推理的速度和本地部署思考

  •  
  •   tootfsg 5h 24m ago via Android 330 views
    前置条件:5070ti 16g ,llama.cpp ,全跑在显存。

    1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构)

    速度大概是 120t/s-150t/s ,首 token 和后续输出都很快

    2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构)

    速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。



    思考:

    现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。

    以上述两种模型举例

    稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。

    moe 是总共 26b 参数,每次推理只激活 4b

    参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。



    可以看出算力需求差异巨大。



    常见的几个顶级开源模型

    glm5.1 参数 754b 激活 40b

    deepseek-v4 pro 参数 1.6t 激活 49b

    v4 flash 参数 284b 激活 13b

    minimax2.5 参数 229b 激活 10b



    moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。



    可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。



    本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。



    我看来有两种比较好的本地部署方案



    1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。

    2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。



    改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。



    mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。



    还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。
    tootfsg
        1
    tootfsg  
    OP
       56 mins ago via Android
    可以看出,统一内存只适合 MoE
    About     Help     Advertise     Blog     API     FAQ     Solana     3033 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 13:15 PVG 21:15 LAX 06:15 JFK 09:15
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86