这可能是下一个周经帖:国产大模型哪个编程能力最顶? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
kaesi0
V2EX    程序员

这可能是下一个周经帖:国产大模型哪个编程能力最顶?

  •  
  •   kaesi0 12 小时 50 分钟前 3634 次点击

    如题,在不考虑价格的情况,目前国产大模型哪个编程能力最顶呢,以及各自的擅长领域,参赛的选手有:

    GLM-4.6:说是 Claude Sonnet 4.5 和 GPT-5 ,但价格仅需要 Sonnet 1/7

    Qwen3-Code:SWE-bench Live 测试中得分 54.7 ,超越 GPT-4.1 ( 48.6 ),中文 API 文档理解准确率达 92%

    DeepSeek-V3.2-Exp:说是被 GLM4.6 超过,但在 Vercel 、Windsurf 等编程平台接入

    MiniMax M2:每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ,专为 Agent 工作流设计

    第 1 条附言    10 分钟前
    简单总结下本周 PK 结果:

    一边倒的推荐 GPT/Gemini/Claude 最近的一两代模型。目前来看国内大模型编程能力和御三家还有很大差距,如果是奔着出活儿去的,就选择这三家模型,首推 Claude Opus ,缺点就是价格太高。

    当然国产大模型也不是全军覆没

    GLM-4.6 口碑不错,用来做调度还是小任务可以胜任,但是最近降智明显 @midsolo @defaw @vevlins @derek80

    Qwen3-Coder 完成一些独立模块可用,写 Rust 感觉也写得不错 @Wh1t3zZ

    DeepSeek-V3.2 做小修改,matlab 可以胜任 @veni2023 @yxc246800

    kimi-for-coding

    建议的工作方式:用 GPT Claude Gemini 给你出方案,让国产 llm 干活 @usVexMownCzar @brookegas

    感谢各位大佬的反馈~
    53 条回复    2025-12-15 23:03:51 +08:00
    courtier
        1
    courtier  
       12 小时 15 分钟前
    我觉得就是考虑了价格的情况下才会使用国产大模型。。。主打性价比,不然 Claude ,gpt ,gemini 不香吗
    gorvey
        2
    gorvey  
       12 小时 13 分钟前
    不好说,你不知道它什么时候会降智,本来就不聪明,一降智就很难用,反正就是都不行
    abc0123xyz
        3
    abc0123xyz  
       12 小时 8 分钟前
    GLM-4.6 不错,240 块的套餐,要是觉得不好,那肯定是我自己的问题(穷)
    sunny352787
        4
    sunny352787  
       12 小时 4 分钟前   21
    我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命
    midsolo
        5
    midsolo  
       12 小时 2 分钟前
    GLM-4.6 之前用起来还不错,但是在出了背刺包之后,用量太多了,总是莫名其妙的降智,严重影响体验
    keshawnvan
        6
    keshawnvan  
       11 小时 58 分钟前   2
    全是垃圾,别浪费时间。
    ericguo
        7
    ericguo  
       11 小时 43 分钟前   1
    kimi-for-coding 还行,49 元每周 1024 次调用
    cleveryun
        8
    cleveryun  
       11 小时 28 分钟前
    好奇问一下,GLM 4.6 ,在 trae 和 iflow cli 里都有免费的,用这个和用 GLM coding plan 里的付费套餐,对应的是同样的大模型吗,网速上或者功能上有差异吗?
    abc0123xyz
        9
    abc0123xyz  
       11 小时 3 分钟前
    刚出的时候最好,这个时候为了宣传,不怎么降智。
    YanSeven
        10
    YanSeven  
       11 小时 1 分钟前
    干点小活儿是可以的,不要想着用 3 个低级研发顶上一个中级研发。三个臭皮匠顶不过诸葛亮。
    Saunak
        11
    Saunak  
       10 小时 53 分钟前
    @sunny352787 sonnet4.5 呢? opus4.5 有点太贵了。
    gpt5codex 咋样?
    livib
        12
    livib  
       10 小时 48 分钟前
    还需要时间沉淀
    stonedongdong
        13
    stonedongdong 
       10 小时 47 分钟前
    @midsolo #5 同感,之前用起来确实很不错,但是最近体验差了。上周用 GLM-4.6 断断续续 3 天没整明白的需求,周六用 Sonnet 4.5 一天就搞定了
    takanashisakura
        14
    takanashisakura  
       10 小时 41 分钟前
    性价比一点的话,可以考虑 sota 模型( claude ,gemini 这些)来进行系统设计,然后把需求拆分为小的功能点后,再让国产大模型来实现。
    bronyakaka
        15
    bronyakaka  
       10 小时 31 分钟前
    最近 kimi k2 、gml4.6 、minimax 一起用,降智问题确实存在
    Feedmo
        16
    Feedmo  
       10 小时 17 分钟前
    @midsolo 背刺包 好贴切的名字
    seven777
        17
    seven777  
       9 小时 58 分钟前
    加上好的 prompt, 加上好的 instructions, 大模型之间从差距会缩小一些,尤其是好的 prompt 影响较大.
    如果就是"一句话需求",那真得 Claude ,基本是遥遥领先的.
    第二梯队的是 Grok@latest , Gemini@latest, ChatGpt@ latest.
    国内产品基本是瘫子里面找瘸子,排序是豆包,千问,其他的都垃圾,无一例外.
    usVexMownCzar
        18
    usVexMownCzar  
       9 小时 43 分钟前 via iPhone
    你可以用 GPT Claude Gemini 给你出方案,让国产 llm 去执行
    usVexMownCzar
        19
    usVexMownCzar  
       9 小时 41 分钟前 via iPhone
    还有 kimi 的 cli 工具,除了它自己的代码写的漂亮外,其他真就是垃圾,识别不了命令的/ 还是路径的/ ,无法识别图片。
    furlxy
        20
    furlxy  
       9 小时 23 分钟前
    这几个,实际用下来感觉都差不多
    Wh1t3zZ
        21
    Wh1t3zZ  
       9 小时 15 分钟前 via Android
    Qwen3-Coder 我用来写一些独立的模块挺不错的,让他写完我再集成进自己的工程里,他写 Rust 感觉比我写得要好
    NizumaEiji
        22
    NizumaEiji  
       9 小时 15 分钟前
    其他的没用过,glm 不怎么样。
    最近试着拿他和 claude code 分析日志数据生成一份测试报告,80%的统计结果都是错误的,错误到了随便找一个指标自己写脚本统计一下发现偏差能超过 10 倍的那种。
    这是我在花了 1.5 人日搞出来的东西,而且 ai 编程非常爱一次性搞出一大堆没用的废话让你读,每次看这些东西都跟玩大家来找茬一样,需要在一堆垃圾中找出来到底哪里有问题,然后给它提出来等着它接下来再生成一堆垃圾。
    bbao
        23
    bbao  
       9 小时 14 分钟前   1
    在做的各位都是垃圾
    defaw
        24
    defaw  
       8 小时 46 分钟前
    glm 没问题,我目前写的六轴机器人的正逆解,属于非常偏门的网上找不到参考答案的程序,我描述清楚的情况下,glm 不开思考模式都能写的又快又好,这说明逻辑面上模型能力没有问题。
    你写个 crud 写个 UI 恨不得指望 1 句话让模型给你生成一个接口,多思考自己是否真的给到了模型需要的信息,然后再来评价模型
    maxwel1
        25
    maxwel1  
       8 小时 7 分钟前   1
    “不不不,请不要误会,我不是针对你,我是说在做的各位。。。“
    LUCIFERorCHRIS
        26
    LUCIFERorCHRIS  
       7 小时 34 分钟前
    @cleveryun 我理解就是服务商不一样,说直白点就是阉割版,比在各类大模型官方开通付费 api 再自己调用慢一些、准确率低一些吧
    craftsmanship
        27
    craftsmanship  
       7 小时 19 分钟前 via Android
    @sunny352787 确实 大模型这玩意只想用最强的 用最少的次数搞定需求 用垃圾的反复折腾 改 prompt 重建 context 麻烦死了
    derek80
        28
    derek80  
       7 小时 12 分钟前
    组合起来用,我用 glm4.6 写写文档,修修语法和测试问题。
    veni2023
        29
    veni2023  
       6 小时 42 分钟前
    ds 起码生产的 code 小修改下能跑起来
    yxc246800
        30
    yxc246800  
       6 小时 30 分钟前
    我用 ds 写 matlab ,嘎嘎好使
    randm
        31
    randm  
       6 小时 5 分钟前
    Qoder 代码提示不行,但执行还可以的。
    8355
        32
    8355  
       5 小时 23 分钟前
    @sunny352787 太对了,当你在跟一个蠢的模型斗智斗勇半天的时候,再切换到一个聪明的模型一切都是顺理成章,得出结论就是这蠢东西根本没法用,我都用上 ai 了我还要写一堆东西来防止他出问题,整个就是本末倒置,白送都不用。
    maix27
        33
    maix27  
       5 小时 8 分钟前
    It's a weekly question...
    bs10081
        34
    bs10081  
       4 小时 47 分钟前
    @Saunak 用 Claude Code 的,他自己切,plan mode 的候用 Opus ,其他候行用 Sonnet
    icyalala
        35
    icyalala  
       4 小时 38 分钟前
    直接御三家 GPT/Gemini/Claude 最近的一两代模型
    本来 AI 就是拿来提效的,不要让 AI 反过来浪费你自己的时间
    herun
        36
    herun  
       4 小时 21 分钟前 via Android
    试过 kimi-k2 写前端,80%的情况下写的代码可用,不过有时候会不按要求来写代码,这时候切换到 Claude Sonnet ,一次提示就搞定了
    momo31
        37
    momo31  
       4 小时 3 分钟前
    only chatgpt claude
    vevlins
        38
    vevlins  
       3 小时 56 分钟前
    日常工作主力开发 glm 4.6 超过两个月,没觉得 claude 有什么显著优势,我用 glm 做不好的任务交给 claude 也就那样。
    mmdsun
        39
    mmdsun  
       3 小时 32 分钟前 via iPhone
    国产模型现在没那么差,GLM 还可以其他没有用过。
    fcten
        40
    fcten  
       3 小时 14 分钟前
    用了一段时间 Qwen Code ,我的结论是完全可用。我自己把控架构,细节交给它。提效还是很明显的。

    如果你想把 AI 当 CTO 来用那 Qwen Code 确实还不行。就算它能行我也不敢发布上线啊,毕竟出了问题是我背锅不是 AI 背锅。

    另外 Qwen Code 免费。让我花钱上班那是不可能的。
    dreamkuo
        41
    dreamkuo  
       2 小时 26 分钟前
    我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命 ------------- 我认可这个观点
    HaibaraDP
        42
    HaibaraDP  
       2 小时 3 分钟前
    别折磨自己了,用来编程一个都不行,就算免费它也得能干活才行
    evilgod528
        43
    evilgod528  
       1 小时 26 分钟前
    @Saunak 日常主力就是 codex gpt5 ,sonnet 我感觉用下来没有 gpt5 质量好,gemini2.5pro 删过我项目心有余悸
    streamrx
        44
    streamrx  
       1 小时 21 分钟前 via iPhone
    都是垃圾。别浪费自己的时间
    brookegas
        45
    brookegas  
       51 分钟前
    我现在的模式是,Claude Opus 4.5 给方案
    Deepseek v3.2 执行

    Minimax M2:刚开始我是它的粉丝,尤其是看到 openrouter 上它在 Cline 选用的模型里排前三,往往仅次于 Claude 家(现在又来了 Gemini 3pro ),这是老外每天真金白银投出来的,不过上次被它无声无息把我的文件删掉重写,所有的样式都按它的想法重改了以后,就不太敢用了。希望它的新版本改进些吧,我还会试用的!

    Deepseek v3.2:12 月 1 日更新的这个版本运行得很好,速度飞快,而且实在太便宜了,便宜得我用得都不好意思了。跟 Claude 这种血盆大口贪婪吞噬我钱钱的怪兽相比,Deepseek 简直是慈眉善目的大善人!它真正的缺点很少有人提到,就是上下文窗口从 1 月发布到 12 月都没有增长过,一直只有 128K !导致我必须把任务拆细了喂给它,不能给整坨的,不过这样也好,保持了自己对整个代码的掌控感。

    每次我想指责 Deepseek 的时候,看了它清一色的清北浙科南组成的开发团队名单,就讪讪地把话吞了回去,哈哈!
    gegeligegeligo
        46
    gegeligegeligo  
       45 分钟前 via Android
    @sunny352787 opus 还是太贵了,没必要,就用普通的 4.5 就行了
    kaesi0
        47
    kaesi0  
    OP
       25 分钟前
    @abc0123xyz 目前在用
    kaesi0
        48
    kaesi0  
    OP
       25 分钟前
    @sunny352787 这么绝对的么
    securityCoding
        49
    securityCoding  
       24 分钟前 via Android
    我在用企业版 cusor ,唯一真神是 opus 其次是 sonnet ,gpt5.2 跟 gemini3pro 都差点意思
    kaesi0
        50
    kaesi0  
    OP
       24 分钟前
    @cleveryun tare 和 iflow 给钱了啊
    kaesi0
        51
    kaesi0  
    OP
       23 分钟前
    kaesi0
        52
    kaesi0  
    OP
       22 分钟前
    @Wh1t3zZ 貌似运维的活也也干得好
    kaesi0
        53
    kaesi0  
    OP
       11 分钟前
    简单总结下本周 PK 结果:

    一边倒的推荐 GPT/Gemini/Claude 最近的一两代模型。目前来看国内大模型编程能力和御三家还有很大差距,如果是奔着出活儿去的,就选择这三家模型,首推 Claude Opus ,缺点就是价格太高。

    当然国产大模型也不是全军覆没

    GLM-4.6 口碑不错,用来做调度还是小任务可以胜任,但是最近降智明显 @midsolo @defaw @vevlins @derek80

    Qwen3-Coder 完成一些独立模块可用,写 Rust 感觉也写得不错 @Wh1t3zZ

    DeepSeek-V3.2 做小修改,matlab 可以胜任 @veni2023 @yxc246800

    kimi-for-coding

    建议的工作方式:用 GPT Claude Gemini 给你出方案,让国产 llm 干活 @usVexMownCzar @brookegas

    感谢各位大佬的反馈~
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2570 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 15:14 PVG 23:14 LAX 07:14 JFK 10:14
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86