glm5.1, kimi2.6, minimax2.7, mimo v2.5, deepseek v4,编程能力上的排名如何? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
请不要在回答技术问题时复制粘贴 AI 生成的内容
junwind

glm5.1, kimi2.6, minimax2.7, mimo v2.5, deepseek v4,编程能力上的排名如何?

  •  3
     
  •   junwind 3 days ago 9422 views

    先抛个砖:GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6

    Supplement 1    3 days ago

    以一个案例来分析这几个的能力:帮我生成一个天气查询H5应用 提示词就这一句,都一样。

    glm5.1: https://imgchr.com/i/pehcWCR 天气温度假

    kimi2.6:https://imgchr.com/i/pehczKf 天气温度真

    minimax2.7:https://imgchr.com/i/pehcBvV 拉完了

    mino v2.5 : 第一遍没有给我生成,换提示词:帮我开发一个天气查询H5应用。才继续生成:https://imgchr.com/i/pehgQIJ 天气温度假。 有一个背景下雨的效果

    deepseek v4: https://imgchr.com/i/pehcgUJ 温度真

    仅针对这个案例的评价:glm5.1,kimi2.6 可以, deepseek v4 ,mino v2.5 次之。 minimax2.7 什么玩意?

    大家也可以自己测试下。

    Supplement 2    3 days ago
    根据案例实测,纠正我之前的排名:glm5.7 >= kimi2.6 >= deepseek v4 > mimo v2.5
    附:minimax 不配上桌。
    Supplement 4    3 days ago
    接评论区的要求,增加 qwen
    Qwen3.5 : https://pic1.imgdb.cn/item/69eddd196dcdaf678a8bc75c.png 和 minimax 一样,拉。
    Qwen3.6-plus: https://pic1.imgdb.cn/item/69edddbc6dcdaf678a8bc7d4.png
    Qwen3-coder 模式: https://pic1.imgdb.cn/item/69eddeb36dcdaf678a8bc93c.png
    这次的案例实测,都是用的官网的网页版,使用最新的模型测试。

    其它的模型,大家感兴趣的,可以自己测试一下。

    总结:国产模型第一梯队 glm ,kimi ,第二梯队:deepseek ,mimo , 第三梯队:qwen ,minimax 。
    Supplement 5    2 days ago
    Claude4.6 ,4.7 ,gpt5.5 ,Gemini3.1 ,大家可以自行测试,我这里暂时只测试国产的几个编程中主流的大模型。
    90 replies    2026-04-28 11:01:48 +08:00
    canyue7897
        1
    canyue7897  
       3 days ago via iPhone   1
    我觉得 kimi 还可以哈?
    没想到这么拉?
    onedge
        2
    onedge  
       3 days ago
    GLM 5.1 > DS v4 = Kimi 2.6 > mimo v2.5 > minimax 2.7
    cookii
        3
    cookii  
       3 days ago via Android   2
    minimax 不配上榜好吧,夸张点说 4B 模型水平
    BestEicky
        4
    BestEicky  
       3 days ago   2
    @cookii 说是 4B 模型都抬举它了,应该是 SB 模型水平吧
    uqf0663
        5
    uqf0663  
       3 days ago
    kimi 我会继续订阅,但是 minimax 就算了,订阅完用了三天我就放弃了,不会再考虑使用。
    onedge
        6
    onedge  
       3 days ago
    @uqf0663 minimax 已经完全龙虾了,m2.5 刚出我还觉得能力可以的,2.7 真的废了
    ayasealter570
        7
    ayasealter570  
       3 days ago
    minimax 官方订阅的极速版,智力低到没边了
    huaweii
        8
    huaweii  
       3 days ago via Android
    @ayasealter570 有没有例子看看,好奇
    uqf0663
        9
    uqf0663  
       3 days ago
    @onedge 我就是用这龙虾的,m2.7 真的是连应付龙虾基本运行都有坑,目前我的龙虾只有 k2.6 勉强马马虎虎能凑合用。
    junwind
        10
    junwind  
    OP
       3 days ago
    @canyue7897 实测的这个案例,kimi 还行,不过生成是很慢的
    junwind
        11
    junwind  
    OP
       3 days ago
    @canyue7897 kimi 不拉,是我个人的武断,实测后还不错
    drealism
        12
    drealism  
       3 days ago via Android
    可以把 qwen 系列补一个进去么
    ebushicao
        13
    ebushicao  
       3 days ago
    每次有人说跑分能够说明能力,我就会举出 minimax2.7 这个例子,那真是连 skill 和 tool 都不一定会调用,某些时候我本地部署的 qwen3.5 9b 都比它强。
    aes114514gcm
        14
    aes114514gcm  
       3 days ago
    和我的体感比较接近,glm5.1 略强于 kimi2.6 ,
    zenfsharp
        15
    zenfsharp  
       3 days ago   1
    GLM5.1 > deepseek v4 > 其他,起码到这里是同意的。
    我刚开了 opencode 的 Go 订阅,在 opencode-cli 里使用同样的 skill 、MCP 、Agent.md ,问 GLM 我项目里的一个业务逻辑,直接一次性揪出来了,而 DS 没有,反复提示了三次才找到。
    zenfsharp
        16
    zenfsharp  
       3 days ago
    不知道各种公众号是有任务还是怎么回事,一个劲的鼓吹 deepseek v4 ,跟实际体验严重背离。
    lukaktus6768
        17
    lukaktus6768  
       3 days ago   1
    看到 glm 我就要踩一脚,买谁都不要买他
    anmie
        18
    anmie  
       3 days ago   12
    @zenfsharp 自媒体不这么写没人看啊, 但是你看 Deepseek 官方就实在多了,官方在公众号里,明确说了模型在某些方面比 xx 模型要弱,而不是无脑鼓吹遥遥领先。
    这么说把,做信息分享类的自媒体,有一个算一个,肯定会夹带私货,在我看来,有一个算一个都是傻逼。 而看自媒体说的就深信不疑的人也是傻逼。

    我自始至终,从大模型刚能聊天,到现在 agentic ,Deepseek 虽然不是最强的那个,但是一直都是我的主力,不为别的,我坚定的站在这样一个不焦虑,不浮躁的人和公司这边。(而 minimax 我根本试都没试过,不感兴趣。)
    metalvest
        19
    metalvest  
       3 days ago
    GLM5.1 天气温度假,为什么排第一?
    weilongs
        20
    weilongs  
       3 days ago
    minimax2.7 排不到那个位置.
    Desiree
        21
    Desiree  
       3 days ago
    暂时只用过 Glm 跟 minimax2.7 挺垃圾的,glm 勉强能用,但是比 cc 跟 codex 还是差一大截,minimax2.7 是完全不能用
    zzz123456qqq
        22
    zzz123456qqq  
       3 days ago
    richardwong
        23
    richardwong  
       2 days ago
    GLM5.1 不支持多模态挺难受的
    owt5008137
        24
    owt5008137  
       2 days ago via Android
    @richardwong 官方送的视觉识别 mcp 可以勉强顶一顶。
    Azmeont
        25
    Azmeont  
       2 days ago
    GLM5.1 和 DSv4-Pro 体感都比 opus4.6 强,但 DSv4 胜在 1M 上下文
    issakchill
        26
    issakchill  
       2 days ago
    看到 minimax 不上桌就放心了
    Lighfer
        27
    Lighfer  
       2 days ago
    不测一下 qwen3.6 27b 吗?据说编程能力也也很强?
    xiaomushen
        28
    xiaomushen  
       2 days ago
    基本同意,今天高强度用 DeepSeek V4 Pro
    xiangqiankan
        29
    xiangqiankan  
       2 days ago   2
    deepseekv4 只是编码方面的后训练不足,架构设计上这是唯一的真神,理论上是开源模型的天花板
    mingtdlb
        30
    mingtdlb  
       2 days ago
    GLM 是写代码比较强吗?我感觉他 chat 有点拉
    iamzz
        31
    iamzz  
       2 days ago
    难兄难弟。
    shuiduoduo
        32
    shuiduoduo  
       2 days ago via iPhone
    和 claude4.7 对比一下呢
    passion336699
        33
    passion336699  
       2 days ago
    minimax 不做评价...
    lizhesystem
        34
    lizhesystem  
       2 days ago
    minimax 确实拉,不在一桌,不过周末使用了 DeepSeekV4 Pro 确实超乎预期,如果暂时没有好用的模型我会优先选择用它。
    Danswerme
        35
    Danswerme  
       2 days ago
    @shuiduoduo Claude Opus 4.7 不用对比,现在是全球范围内断崖式领先。
    aikilan
        36
    aikilan  
       2 days ago
    minimax 确实不行,之前自己写的应用去测试接入第三方 provider 的时候,用这家测试了下我一度怀疑是我自己的接入方式有问题
    MagicLi
        37
    MagicLi  
       2 days ago
    kimi 为啥我感觉非常不耐用呢。100 的尝鲜套餐。
    junwind
        38
    junwind  
    OP
       2 days ago
    目前国内 glm5.1 ,kimi2.6 ,dsv4 可以选择,哪个能订阅,哪个便宜就用哪个。dsv4 我看好后期上华为卡后,价格再降一大波,并且应该也不会有订阅售罄的烦恼。
    goodryb
        39
    goodryb  
       2 days ago
    这个测试多少有点敷衍了,网页版都是聊天的,测试编码起码用个 CLI 试一试吧
    Adyun
        40
    Adyun  
       2 days ago
    minimax 纯拉 29 元送了
    ethanpeng
        41
    ethanpeng  
       2 days ago
    codex 5.5 xhigh


    思考过程:
    WashFreshFresh
        42
    WashFreshFresh  
       2 days ago
    @Danswerme #35 你是忘记加狗头了吗,不是默认都 4.6>4.7
    mscsky
        43
    mscsky  
       2 days ago
    minimax 没算力了吧
    hotbaidu
        44
    hotbaidu  
       2 days ago
    @zenfsharp opencode 的 Go 订阅 deepseek v4 是不是只有 flash 没有 pro ,我在其他平台测试 deepseek v4 flash 智力不如 kimi
    mscsky
        45
    mscsky  
       2 days ago
    要比也是本地部署了比
    Tink
        46
    Tink  
    PRO
       2 days ago
    minimax 真的是烂完了,问着问着给我爆乱码了
    jlkm2010
        47
    jlkm2010  
       2 days ago
    GLM 5.1 >= DS v4 > Kimi 2.6 > minimax 2.7 > mimo v2.5
    jimrok
        48
    jimrok  
       2 days ago
    minimax 确实弱智,以后可以从测评里面剔除掉。
    fkdtz
        49
    fkdtz  
       2 days ago
    @BestEicky 兄弟心直口快
    brucedone
        50
    brucedone  
       2 days ago
    "不诱于誉,不恐于诽,率道而行,端然正己。" 就这个态度,做的事儿,这价格,就已经很顶了,编码不足人家自己也说了,不足就是不足,你也要让人家进步呀。
    o99o
        51
    o99o  
       2 days ago
    大家的 deepseek v4 是在 deepseek 自己家平台上订阅的么?感觉用的很快。10 块钱的 token 很快就没了。
    fkdtz
        52
    fkdtz  
       2 days ago
    在我印象里 minimax 效果还不错啊,甚至在打开这篇帖子之前我一直都这样以为,
    怎么反差这么大?一直就这么拉吗?之前是营销号借着龙虾风无脑吹的吗?
    有没有兄弟知道咋回事?
    zenfsharp
        53
    zenfsharp  
       2 days ago   1
    @hotbaidu #44 有的兄弟,pro 和 flash 都有的。
    coldle
        54
    coldle  
       2 days ago   3
    @fkdtz #52
    minimax 一直狂蒸 claude ,在 minimax-m2.1 时代还能跟 glm-4.7 在某些场景互有来回,从 m2.5 开始就完全跟不上了,所谓的火只是卡在一个「效果比他好的模型参数大价格贵,参数比他小的模型效果比他差」的临界点,在养虾普遍 token 焦虑的时候搭了下顺风车

    现在 deepseek-v4-flash 出来直接替换生态位,要多模态有 k2.6 ,要性价比有 v4f
    wwhc
        55
    wwhc  
       2 days ago
    楼主的测试有偏差,本地部署的 Qwen3.6 27B/35B 使用楼主的提示词都能生成达到楼主图中 GLM 的水准的代码渲染,本地部署的 gpt-oss 120B 倒真是惨不忍睹,生成的的代码渲染出的页面没法看
    xixka
        56
    xixka  
       2 days ago
    我自己的使用感受,Kimi 代码弱,glm 幻觉高,都只能是勉强
    qxq94
        57
    qxq94  
       2 days ago
    Minimax2.7 确实一句提示词垃圾,得补充一次功能无法运行,UI 界面太丑了。生成的也就还能看
    ![MB7Ej2nAcUPxj3GF0puqDXtngr3u720m.gif]( https://cdn.nodeimage.com/i/MB7Ej2nAcUPxj3GF0puqDXtngr3u720m.gif)
    litchinn
        58
    litchinn  
       2 days ago
    1M 上下文到底关不关键,在大型项目或长期开发中是否起关键作用呢?
    Jiajin
        59
    Jiajin  
       2 days ago
    本地部署的 qwen3.6-27B-FP8
    cli 工具:claude code


    温度用的真实接口,检索城市有问题,但是定位自己的位置是完全正确的,温度显示也没问题。

    ![天气]( )
    coldle
        60
    coldle  
       2 days ago
    @litchinn #58
    注意力不严重丢失的话,读大项目非常有用,实打实的「大就是好」。分别用 ds 和 glm 读大型项目就知道了,ds 还在正常聊的时候 glm 已经流口水了(

    不过 ds 编程能力本身可能没 glm 那么特化(也可能是后训练不足的缘故),落实到具体写代码场景反而不如注意力飞速丢失的 glm
    tangwz
        61
    tangwz  
       2 days ago
    我实测了 DeepSeek V4 ,整理来说也是第一梯队,不过看评分还是 GLM5.1 和 KIMI 2.6 略微领先。

    参考: https://www.bilibili.com/video/BV1gSoUBYEdV/
    Jiajin
        62
    Jiajin  
       2 days ago
    @wwhc 核心问题是 codex 、cc 等工具内置了很多 agentic coding 的提示词,测试要控制变量。他是这个纯网页端测试。天然不适合这种任务。
    junwind
        63
    junwind  
    OP
       2 days ago
    @Jiajin 那你又搞错了,正是在这种都不依赖别的工具下测试,才能体现模型本身的底色。
    lear7
        64
    lear7  
       2 days ago
    个人认为 DeepSeek v4 Pro Max 能赶上 Sonnet 4.5 的效果,比 Sonnet 4.6 可能还差一点点。

    至于其他国内大模型,我不用,浪费金钱是一回事,还浪费生命。
    Jiajin
        65
    Jiajin  
       2 days ago
    @junwind 我的意思是你应该在同一个 agentic 工具(比如 claude code )下测试不同的本地部署的模型。控制变量。网页版各家都有自己的不同的提示词,甚至还有降智、限流。
    wwhc
        66
    wwhc  
       2 days ago
    @Jiajin
    @junwind
    不依赖别的工具,本地部署的 Qwen3.6 27B/35B 也能达到 GLM 的水准当使用“帮我生成一个天气查询 H5 应用”这个提示词
    binaryify
        67
    binaryify  
       2 days ago
    @junwind #10 kimi 白天限速,晚上飞快
    ty29022
        68
    ty29022  
       2 days ago
    同意 minimax 是坨屎的结论

    一句话的提示词, 生成一个前端页面, 用来评估编程性能, 是不是有些片面呢

    hotbaidu
        69
    hotbaidu  
       2 days ago
    @zenfsharp 那我也去订阅试试,昨天只体验 v4 flash 效果不好
    calpes
        70
    calpes  
       2 days ago
    你们每天测的都是啥场景,都是一句话小需求吗?都不说 harness 的场景,就标准 spec 模式下涉及超过 5 个服务的需求,你们那 200k 的上下文能 plan 出来个正经东西吗? ds4 最的不就是这个注意力打折的不是很厉害的 1M 上下文吗
    jaoyina
        71
    jaoyina  
       2 days ago
    @zenfsharp

    deepseek 有国家战略意义,
    jaoyina
        72
    jaoyina  
       2 days ago
    @richardwong

    glm 的策略是不同模态用分开的模型,我记得官网有说明,它另外有个带名称里 v 的模型。
    xiaomushen
        73
    xiaomushen  
       2 days ago
    @calpes 总不能让他们拿着正经项目去测试吧,哈哈哈
    calpes
        74
    calpes  
       2 days ago
    @xiaomushen 不看正经项目那不还是赛博斗蛐蛐吗?
    xiaomushen
        75
    xiaomushen  
       2 days ago
    @calpes 不然呢?正经项目哪儿可能这么短时间,正经测一遍?
    xzpjerry731
        76
    xzpjerry731  
       2 days ago via iPhone
    Op 是在本地跑的吗
    evilgod528
        77
    evilgod528  
       2 days ago
    glm5.1 和 其它(目前后端领域使用下来的体会),希望 ds v4 快点优化上来,干掉 Z
    justxwy
        78
    justxwy  
       2 days ago
    https://x.com/hantmango/status/2048308533477945366?s=20 我测下来是 kimi 和 ds v4 pro 比较好。
    KingGaruda
        79
    KingGaruda  
       2 days ago
    我感觉这个测试场景有点草率。。至少在你的 claudeCode 里选定模型测试?感觉偏差源于官方优化。 我只是好奇正经自开发场景下 glm/kimi/ds 哪个比较合适。
    loolac
        80
    loolac  
       2 days ago
    这样儿比较没意义,信息供应都不一致,deepseek-v4 的数据都还是 2025 年 5 月前的。

    感觉上模型能力越强幻觉越严重。kimi2.6 用的比较多,但是 deepseek-v4 感觉比 kimi2.6 好很多。
    stdout
        81
    stdout  
       2 days ago
    mimo v2.5 pro >= GLM 5.1 >= DS v4 pro >= kimi 2.6 > minimax 2.7 深度读代码找到 bug 解决 bug 的能力,写大量代码的话都不行。说实话 codex 真是免费给大家用的。codex100u 的性价比远超这些。国产还要加油啊
    xFrye
        82
    xFrye  
       2 days ago
    对比之下 minimax 是路边的,官方的 kimi2.6 我觉得还不错,就是消耗有点快
    kashao
        83
    kashao  
       2 days ago
    @stdout mimo V2.5 pro 的上下文记忆打折不,我记得比 ds V4pro 多了多模态,但是 Token Plan 确实小贵
    phli
        84
    phli  
       2 days ago
    这是 gemini 3.1 pro 网页端生成的。
    <!DOCTYPE html>
    <html lang="zh-CN">
    <head>
    <meta charset="UTF-8">
    <meta name="viewport" cOntent="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">
    <title>极简天气 H5</title>
    <script src="https://unpkg.com/vue@3/dist/vue.global.js"></script>
    <script src="https://cdn.tailwindcss.com"></script>
    <style>
    /* 隐藏滚动条但保留滚动功能 */
    .no-scrollbar::-webkit-scrollbar {
    display: none;
    }
    .no-scrollbar {
    -ms-overflow-style: none;
    scrollbar-width: none;
    }
    </style>
    </head>
    <body class="bg-gradient-to-br from-blue-100 to-blue-300 min-h-screen flex items-center justify-center p-4">

    <div id="app" class="bg-white/80 backdrop-blur-md rounded-3xl shadow-xl w-full max-w-sm p-6 overflow-hidden">
    <div class="relative mb-6">
    <input
    v-model="searchCity"
    @keyup.enter="getWeather"
    type="text"
    placeholder="输入城市名称,如:北京"
    class="w-full bg-white/90 px-4 py-3 rounded-xl shadow-sm focus:outline-none focus:ring-2 focus:ring-blue-400 transition-all text-gray-700"
    >
    <button
    @click="getWeather"
    class="absolute right-2 top-2 bottom-2 bg-blue-500 hover:bg-blue-600 text-white px-4 rounded-lg transition-colors font-medium"
    >
    查询
    </button>
    </div>

    <div v-if="loading" class="text-center py-10">
    <div class="animate-spin rounded-full h-8 w-8 border-b-2 border-blue-500 mx-auto"></div>
    <p class="text-gray-500 mt-3 text-sm">正在获取天气数据...</p>
    </div>

    <div v-else-if="errorMessage" class="text-center py-8 text-red-500 bg-red-50 rounded-xl">
    {{ errorMessage }}
    </div>

    <div v-else-if="weatherData" class="fade-in">
    <div class="text-center mb-6">
    <h2 class="text-3xl font-bold text-gray-800 tracking-wider">{{ weatherData.city }}</h2>
    <p class="text-gray-500 mt-1">{{ weatherData.date }}</p>
    </div>

    <div class="flex items-center justify-center mb-6">
    <span class="text-6xl mr-4">{{ weatherData.icon }}</span>
    <div>
    <div class="text-5xl font-black text-gray-800">{{ weatherData.temp }}°C</div>
    <div class="text-xl text-gray-600 mt-1 font-medium">{{ weatherData.description }}</div>
    </div>
    </div>

    <div class="grid grid-cols-2 gap-4">
    <div class="bg-white/60 p-3 rounded-xl flex items-center">
    <span class="text-2xl mr-2"></span>
    <div>
    <div class="text-xs text-gray-500">湿度</div>
    <div class="font-bold text-gray-700">{{ weatherData.humidity }}%</div>
    </div>
    </div>
    <div class="bg-white/60 p-3 rounded-xl flex items-center">
    <span class="text-2xl mr-2"></span>
    <div>
    <div class="text-xs text-gray-500">风速</div>
    <div class="font-bold text-gray-700">{{ weatherData.windSpeed }} km/h</div>
    </div>
    </div>
    <div class="bg-white/60 p-3 rounded-xl flex items-center">
    <span class="text-2xl mr-2"></span>
    <div>
    <div class="text-xs text-gray-500">体感温度</div>
    <div class="font-bold text-gray-700">{{ weatherData.feelsLike }}°C</div>
    </div>
    </div>
    <div class="bg-white/60 p-3 rounded-xl flex items-center">
    <span class="text-2xl mr-2"></span>
    <div>
    <div class="text-xs text-gray-500">能见度</div>
    <div class="font-bold text-gray-700">{{ weatherData.visibility }} km</div>
    </div>
    </div>
    </div>
    </div>

    <div v-else class="text-center py-12 opacity-50">
    <span class="text-6xl block mb-4"></span>
    <p class="text-gray-500">搜索你关心的城市天气</p>
    </div>
    </div>

    <script>
    const { createApp, ref, onMounted } = Vue;

    createApp({
    setup() {
    const searchCity = ref('');
    const weatherData = ref(null);
    const loading = ref(false);
    const errorMessage = ref('');

    // 模拟天气数据映射(用于演示)
    const mockIcOns= { '晴': '', '多云': '', '阴': '', '雨': '', '雪': '' };

    const getWeather = async () => {
    if (!searchCity.value.trim()) return;

    loading.value = true;
    errorMessage.value = '';
    weatherData.value = null;

    try {
    // [开发建议]
    // 此处应替换为真实的接口请求,例如和风天气 (QWeather) 或 OpenWeatherMap
    // const API_KEY = 'your_api_key';
    // const respOnse= await fetch(`https://devapi.qweather.com/v7/weather/now?location=${searchCity.value}&key=${API_KEY}`);
    // const data = await response.json();

    // 模拟 API 延迟
    await new Promise(resolve => setTimeout(resolve, 800));

    // 模拟数据结构拦截与拼装
    if (searchCity.value.length > 10) {
    throw new Error('未找到该城市信息');
    }

    const randomTemp = Math.floor(Math.random() * 30) + 5;
    const descriptiOns= ['晴', '多云', '雨', '阴'];
    const desc = descriptions[Math.floor(Math.random() * descriptions.length)];

    weatherData.value = {
    city: searchCity.value,
    date: new Date().toLocaleDateString('zh-CN', { month: 'long', day: 'numeric', weekday: 'long' }),
    temp: randomTemp,
    feelsLike: randomTemp + (Math.floor(Math.random() * 4) - 2),
    description: desc,
    icon: mockIcons[desc],
    humidity: Math.floor(Math.random() * 50) + 30,
    windSpeed: Math.floor(Math.random() * 20) + 5,
    visibility: Math.floor(Math.random() * 10) + 5
    };
    } catch (error) {
    errorMessage.value = error.message || '获取天气信息失败,请稍后重试';
    } finally {
    loading.value = false;
    }
    };

    // 初始加载默认城市
    onMounted(() => {
    searchCity.value = '北京';
    getWeather();
    });

    return {
    searchCity,
    weatherData,
    loading,
    errorMessage,
    getWeather
    };
    }
    }).mount('#app');
    </script>
    </body>
    </html>
    slowgen
        85
    slowgen  
       2 days ago   1
    这个测试也太不严谨了。

    开源模型的参数是有推荐的,不同的模型对于不同的任务场景,temperature 、top_p 、top_k 、min_p 、presence_penalty 、repetition_penalty 的数值都不同,你用网页版都不知道人家默认是针对什么场景配置的,做测试对比是要根据你自己的任务场景去设置的。

    甚至是量化部署方案,比如同样 NVFP4 的量化,还要看用了什么数据集校准。

    我就这么说吧,我本地部署的 MiniMax M2.7 ( nvidia 放出的 NVFP4 量化)和 Qwen 3.6 35B-A3B ( RedHatAI 放出的 NVFP4 量化)、Qwen 3.6 27B ( mlx-community 的 NVFP4 量化和 unsloth 的 UD + NVFP4 ),分别按照各模型文档的参数推荐来用对话模式按照你那一句话 prompt ,写出来的 html 都和你提到能上桌的模型都差不多。
    junwind
        86
    junwind  
    OP
       2 days ago
    @slowgen 我不管这那的,我只想知道我一句话的需求,谁做完的成品最完整。未来的 Ai 畅想不就是这种发展吗,比如生图,image2 出来,满足了我对于一句话生图结果的预期。 这是之前用其它生图模型都无法达到的效果。 我觉得未来的 AI 就是这样,没必要写各种专业的提示词,我就用人话,你给我出符合预期的结果,然后在这个符合预期的结果上精修。
    mewking
        87
    mewking  
       2 days ago
    @slowgen unsloth 的 UD + NVFP4 ??这个没看到啊,只有一个 Qwen3.6-27B-UD-MLX-NVFP4 ,而且不明这东西到底跑在 mac 上还是黄卡上??
    slowgen
        88
    slowgen  
       2 days ago
    @mewking 就是这个啊 https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4
    从命名风格来说 UD 就是动态量化,带 MLX 的就是用 Apple 的 MLX 跑的,NVFP4 作为压缩保存的格式。
    v400127
        89
    v400127  
       1 day ago
    综合比较实用性和价格,不当花瓶,量大管饱,就只选 deepseek 4 了,其他的价格,我为啥选 kimi glm mimo 呢,他们的报价能和 gpt 对标吗
    cskason
        90
    cskason  
       1 day ago
    现阶段 GLM5.1 好比较好,刚开始使用 minimax2.7 的时候,觉得还不错,用了大半个月后经常超时,再过了一段时间发现降智到原来十分之一
    About     Help     Advertise     Blog     API     FAQ     Solana     3322 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 172ms UTC 12:13 PVG 20:13 LAX 05:13 JFK 08:13
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86