切换到 turboquant_plus, 效率真的提升太高了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Hermitist
V2EX    程序员

切换到 turboquant_plus, 效率真的提升太高了

  •  
  •   Hermitist 3 天前 1651 次点击
    https://github.com/TheTom/turboquant_plus

    我是 32G M5 的 macbook air, 启用了 Qwen3.5-27B.Q3 的大模型, 内存最高是在 81%,关键我的电脑还跑了一堆其它应用比如同花顺/抖音/邮件/梯子/笔记/chatgpt, 关键是我刚启用, 缓存刚开始建立中, 这个真的是质的提升.

    晚点我试下 35B 的模型,我强烈建议各位用它, 不是一般的提升效率, 也许不远的月份, 我这种配置可以跑 70B 的大模型也不一定呢, 这样再没有 tokens 焦虑.
    18 条回复    2026-04-02 18:50:44 +08:00
    penisulaS
        1
    penisulaS  
       3 天前
    你本地一般用来跑什么呢?我是 m2max 96G,但一直不知道用来在本地干什么,用了几个本地模型都感觉不如线上的版本
    Hermitist
        2
    Hermitist  
    OP
       3 天前
    @penisulaS 我上面不是说的很清楚吗? https://github.com/TheTom/turboquant_plus 我试过 omlx/ollama/llama, 还是现在这个更节约资源,速度更快, 你这 96G 内存, 我估计跑 100B 以上都没问题吧, 要不你试试? 等你回复.
    penisulaS
        3
    penisulaS  
       3 天前
    @Hermitist 你试过用来跑本地的代码模型吗?我的意思是我试过本地的,感觉比较笨,没达到我的门槛,感觉这些开源的非超大模型还不够聪明
    xooass
        4
    xooass  
       3 天前
    温度怎么样

    我在考虑 32G 的 mba 还是 mbp 中,价格就差 3000 ,目前怕跑模型是一直高负载的话,mba 没有风扇一会就顶不住了,没法长期保持,至少 mbp 有风扇
    fe619742721
        5
    fe619742721  
       3 天前
    本地模型效果到底怎么样啊,跟云端比,比如 GLM5 这种,打得过吗
    Sezxy
        6
    Sezxy  
       3 天前
    @fe619742721 #5 想啥,肯定打不过啊,参数量放那里
    Hermitist
        7
    Hermitist  
    OP
       3 天前
    @penisulaS 你说的本地代码模型是什么


    @xooass 温度还可以, 直接买 mbp, 还有买 32G 不如买 64G,甚至更多内存的, 因为可以本地跑大模型, 花的钱可以实现 token 只有.


    @fe619742721 除非硬件配置很高,否则还是大玩具.
    xing7673
        8
    xing7673  
       3 天前
    @penisulaS #1 跑对任务智能要求不高,对要素状况反应不需要高智能,但是需要持续的、可观测的、费 token 的简单场景,比如跑新闻监控、翻译、聊天总结、文件夹分类、邮件分类等等直接任务,也可以跑一些简单的爬虫。
    多工具、多 agent 协调的复杂场景确实不能指望本地模型,除非你对你的场景要求写得非常详细,但是仍然有注意力漂移的风险。
    xing7673
        9
    xing7673  
       3 天前
    晚点我试下 35B 的模型,我强烈建议各位用它, 不是一般的提升效率, 也许不远的月份, 我这种配置可以跑 70B 的大模型也不一定呢, 这样再没有 tokens 焦虑.

    -- turbo3 只针对 KV Cache 的量化,不针对模型本身的量化,你的 32g 跑 70b 模型技术上和以前是一样的,只是 turbo3 能帮你拓展上下文宽度
    xiangqiankan
        10
    xiangqiankan  
       3 天前
    我的 m4 pro 48g 1tb 能跑什么模型
    niubilewodev
        11
    niubilewodev  
       3 天前
    Hermitist
        12
    Hermitist  
    OP
       3 天前
    @xing7673 没问题啊, 到时候除了当前的配置可能 kv cache 提升, 还有显存可以直接用 ssd 硬盘扩充的技术.
    YanSeven
        13
    YanSeven  
       3 天前
    除了玩玩儿,目前想不到本地的 mini 大模型的使用场景,感觉就是纯纯笨蛋,没啥用。
    国产商业部署的大模型还经常嫌弃笨蛋,何况自部署的。
    0x0x
        14
    0x0x  
       3 天前 via Android
    感觉除非有本地开发需求和安全需求,比如需要测试一些功能需要大量 token 和不让联网,否则不如直接订阅来的稳。本地 llm 的质量堪忧啊。
    kenpuluma
        15
    kenpuluma  
       3 天前
    Qwen3.5-27B Q3 本身模型权重也就不到 15g ,并没有体现出来什么质的提升吧?
    r6cb
        16
    r6cb  
       3 天前
    和 vllm 对比过吗
    sampeng
        17
    sampeng  
       3 天前 via iPhone
    问题是这玩意除了评测啥都干不了啊
    caritasem
        18
    caritasem  
       3 天前
    生命在于折腾
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2460 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 10:54 PVG 18:54 LAX 03:54 JFK 06:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86