各位推荐一个 32G Macbook air M5 可以跑的 moe 模型 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Hermitist

各位推荐一个 32G Macbook air M5 可以跑的 moe 模型

  Hermitist 1 day ago 3006 views
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s.


准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
Supplement 1    1 day ago
看来还是要面对现实, 花钱买最少 256G 起步的才可以, 等 M5 的 mac mini 出来再说吧.
Supplement 2    1 day ago
我实际上用 hermes 进行自我优化, 不过没什么太大用.

19 replies    2026-04-26 18:36:59 +08:00
putaosi
    1
putaosi  
   1 day ago via iPhone   4
能用的太慢,快得太蠢
cskeleton
    2
cskeleton  
   1 day ago
我是 M1Pro 32G ,实际测下来主要还是内存都不太够。
moe 测下来 gemma4-26b 也就差不多了,qwen3.6-35b 内存就很极限了,上下文拉不大,还不能开多了东西。
dense 模型我跑不动,速度太慢了。
geekvcn
    3
geekvcn  
   1 day ago via Android
本地模型没啥用,跑的起的太蠢,不蠢的本地跑成本更高。等 AI 模型相对成熟后 AI ASIC 普及吧
fbu11
    4
fbu11  
   1 day ago
不是降智,是 32G 也不太够,本地模型要带起来内存还得上,能带起来的,要么很拉,要么很慢
ETiV
    5
ETiV  
   1 day ago via iPhone
air:你饶了我吧

没风扇,咋跑
zhuoi
    6
zhuoi  
   1 day ago   1
32G 跑起来的模型太拉了
cwcc
    7
cwcc  
   1 day ago
https://github.com/ggml-org/llama.cpp/discussions/4167

Mac 跑大模型天梯图。

目前我自己用下来兼顾速度和效果的感觉也就最新的 qwen3.6-35b-a3b 了,需要微调一下模型的参数。
ntdll
    8
ntdll  
   1 day ago
本地能跑起来的,只有弱智,你看不上。
不弱智的,本地根本跑不起来。

本地能跑起来的模型,只有一些方向特化的,比如某些模型,只能做分类,只能做某种识别,这种特化过的模型,本地才有可能跑起来,且有意义。
microscopec
    9
microscopec  
   1 day ago
我 m5pro 64G ,可以跑量化版的千问(70G),也可以输出代码,但和真正的大模型还是有差距,建议还是用全量模型,买 4 台 M5 Ultra 256G 内存,通过万兆宽带本地组集群,这样更安全一些
microscopec
    10
microscopec  
   1 day ago
顺便说下,m5pro 64G 跑量化版的 Qwen3 Coder Next 80B 版,110/s tokens
Hermitist
    11
Hermitist  
OP
   1 day ago
@cwcc 请问具体调整模型参数,可否提供一些可用的参考资料研究下?
Hermitist
    12
Hermitist  
OP
   1 day ago
@ETiV 没事, 我开了个一台风扇, 温度也没那么离谱.
Hermitist
    13
Hermitist  
OP
   1 day ago
@cskeleton gemma4-26b 速度和智障如何?
superPONY
    14
superPONY  
   1 day ago
我最近在搞一个本地知识库软件 RAGDock ,用 Mac mini 16g 测了一些小模型,有单模态和多模态的都测了一些,如果你把不同类型的任务细化并组合使用我觉得才是本地模型的用武之地。有兴趣可以参考一下: https://github.com/RAGDock/RAGDock
caqiko
    15
caqiko  
   1 day ago
我的体验是纯作为 chat bot 还行,当成本地图书馆来用。但是用来对接 claude code 等 coding agent 实在是太慢了。
sddyzm
    16
sddyzm  
PRO
   1 day ago
本地模型也许隐私性和可控性是挺好,但是性能和 chatgpt 、claude 等没法比,是完全没法比
Hermitist
    17
Hermitist  
OP
   1 day ago
@sddyzm 也就是用来做下量化, 应该硬件需求没那么大吧
cskeleton
    18
cskeleton  
   1 day ago
@Hermitist #13 我试了试写天气卡片,效果还可以,不过 qwen3.6 更好。qwen3.6 这一代目前体验的感觉是大大小小都还不错。
Hermitist
    19
Hermitist  
OP
   1 day ago
@cskeleton 是的, 我感觉 qwen3.6 的不错, 不过好像这几天降速太厉害了.
About     Help     Advertise     Blog     API     FAQ     Solana     3343 Online   Highest 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 50ms UTC 13:03 PVG 21:03 LAX 06:03 JFK 09:03
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86