[求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
diudiuu
0.04D
V2EX    Local LLM

[求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适?

  •  
  •   diudiuu 15 天前 611 次点击

    现在手上有一台 NVIDIA DGX Spark(对就是 3 万多的那个,闭眼别问为啥),目前已完成以下配置:

    • OpenClaw 已部署并正常运行
    • Ollama 已部署,加载了本地 70B 模型

    问题描述

    推理速度极慢,具体表现如下:

    • 发送 "Hello" 这类简单问候,响应时间长达 30 秒以上
    • 尝试换用 8B 小模型,速度几乎没有改善,与 70B 差异微乎其微

    排查结论

    查阅官方论坛及社区资料后发现:

    Ollama 的部署方式并未针对 DGX Spark 做专项优化,社区普遍推荐在该平台上改用 llama.cpp 直接部署,以充分发挥其 GB10 超级芯片 Unified Memory 统一内存架构的优势。

    或者上面的我说的不对,我有看专门设置,但是实际就是很烂


    求助

    有没有在 DGX Spark 上实际跑过 llama.cpp 的老哥?希望得到以下指点:

    1. 具体部署步骤 或踩坑经验分享
    2. 相比 Ollama ,推理速度提升是否明显
    3. 是否有其他更适合 DGX Spark 的推理框架推荐?(如 vLLM 、MLX 等)

    希望有经验的老哥帮我指点一二!

    11 条回复    2026-03-11 10:57:38 +08:00
    coefu
        1
    coefu  
       13 天前
    1,你小子真舍得,牛逼。
    2 ,我没有设备,你的问题没办法回答。
    3 ,如果你愿意共享出来,还是能帮你 debug 试一下的。
    diudiuu
        2
    diudiuu  
    OP
       13 天前
    coefu
        3
    coefu  
       13 天前
    @diudiuu t/1126516

    小伙子,在我面前耍大刀了啊。我只是没有钱买 dgx-spark 。
        4
    diudiuu  
    OP
       13 天前
    @coefu 牛逼牛逼牛逼我屮
    你这这个分析挺厉害,大哥受小弟一拜.
    diudiuu
        5
    diudiuu  
    OP
       13 天前
    @coefu 这个机子也不是我花钱买的,大哥给小弟再看看这个 https://2libra.com/post/ai-tools/SE99dqq 这俩机子推荐哪个,之前我也有问过没有人回答
    coefu
        6
    coefu  
       13 天前
    @diudiuu #5 不差钱的话,全都买啊。mac studio m3 ultra 要是不搞 512g mem ,意义不大,顶配要 10w ,比 dgx spark 贵太多了。如果预算有限,就 dgx spark 咯?反正现在小模型的智能密度很高了。你要专业性和准确性的话,用 rag 提升,当前 ocr 和 rerank 都发展的不错了。

    mac studio m3 ultra 可以串起来,组一个 1T mem 的组合 跑 671B 的 deepseek 。不差钱儿的话,这个肯定更好。
    coefu
        7
    coefu  
       13 天前
    @diudiuu #5 我几百块的成本捡的垃圾,都组了一个智能密度看起来还可以的tokens 。只是有时候慢一点。
    diudiuu
        8
    diudiuu  
    OP
       13 天前
    @coefu 大哥你真的可以给这些天天自己搭建模型的公司当顾问了,你甚至可以出一个配置表,教程,推荐什么模型一份 99 块. 我现在有个群里面出的是搭建这些 openclaw 教程,一键开服务器卖 token,一份 99.

    我想把你介绍给我朋友
    coefu
        9
    coefu  
       12 天前
    @diudiuu #8 谢谢你先,但是我没搞。而且,我对这个方向没什么兴趣,。

    去年这个时候,我把 langchain/rag 那套都搞过一遍,没什么意思。LLMs 整个领域,我都只用而已。
    NikoXu
        10
    NikoXu  
       8 天前
    oss 120B 快是因为激活参数才 5B
    diudiuu
        11
    diudiuu  
    OP
       7 天前
    @NikoXu 已经更换本地模型了, 更换成这个了 MiniMax-M2.5 UD-Q3_K_XL,比 oss 120B 更大更快
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5612 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 09:05 PVG 17:05 LAX 02:05 JFK 05:05
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86