
我的机器是 M1 Pro ,32G 内存,部署本地模型主要是两个需求:
我一开始使用的是 qwen3.5-9b 和 qwen3.5-4b 的模型,测试的时候,可以用,但是在实际跑起来的时候,发现 qwen 会无限思考,经常 10 分钟都没有任何响应;后来换成了 qwen3-4b 的模型,效果比较好,很少出现无限思考的问题
1 lagrange7 27 days ago 是不是启动的时候设定不思考,会好一些? |
2 xiaoz 27 days ago via Android 你直接调用参数里面设置下禁止思考呗。 |
3 workbest OP 没有 disable 思考,设置了 最大思考 token ,没用 |