
先抛个砖:GLM5.1 > deepseek v4 > minimax2.7 ≥ mimo v2.5 ≈ kimi2.6
以一个案例来分析这几个的能力:帮我生成一个天气查询H5应用 提示词就这一句,都一样。
glm5.1: https://imgchr.com/i/pehcWCR 天气温度假
kimi2.6:https://imgchr.com/i/pehczKf 天气温度真
minimax2.7:https://imgchr.com/i/pehcBvV 拉完了
mino v2.5 : 第一遍没有给我生成,换提示词:帮我开发一个天气查询H5应用。才继续生成:https://imgchr.com/i/pehgQIJ 天气温度假。 有一个背景下雨的效果
deepseek v4: https://imgchr.com/i/pehcgUJ 温度真
仅针对这个案例的评价:glm5.1,kimi2.6 可以, deepseek v4 ,mino v2.5 次之。 minimax2.7 什么玩意?
大家也可以自己测试下。
1 canyue7897 3 days ago via iPhone 我觉得 kimi 还可以哈? 没想到这么拉? |
2 onedge 3 days ago GLM 5.1 > DS v4 = Kimi 2.6 > mimo v2.5 > minimax 2.7 |
3 cookii 3 days ago via Android minimax 不配上榜好吧,夸张点说 4B 模型水平 |
5 uqf0663 3 days ago kimi 我会继续订阅,但是 minimax 就算了,订阅完用了三天我就放弃了,不会再考虑使用。 |
7 ayasealter570 3 days ago minimax 官方订阅的极速版,智力低到没边了 |
8 huaweii 3 days ago via Android @ayasealter570 有没有例子看看,好奇 |
10 junwind OP @canyue7897 实测的这个案例,kimi 还行,不过生成是很慢的 |
11 junwind OP @canyue7897 kimi 不拉,是我个人的武断,实测后还不错 |
12 drealism 3 days ago via Android 可以把 qwen 系列补一个进去么 |
13 ebushicao 3 days ago 每次有人说跑分能够说明能力,我就会举出 minimax2.7 这个例子,那真是连 skill 和 tool 都不一定会调用,某些时候我本地部署的 qwen3.5 9b 都比它强。 |
14 aes114514gcm 3 days ago 和我的体感比较接近,glm5.1 略强于 kimi2.6 , |
15 zenfsharp 3 days ago GLM5.1 > deepseek v4 > 其他,起码到这里是同意的。 我刚开了 opencode 的 Go 订阅,在 opencode-cli 里使用同样的 skill 、MCP 、Agent.md ,问 GLM 我项目里的一个业务逻辑,直接一次性揪出来了,而 DS 没有,反复提示了三次才找到。 |
16 zenfsharp 3 days ago 不知道各种公众号是有任务还是怎么回事,一个劲的鼓吹 deepseek v4 ,跟实际体验严重背离。 |
17 lukaktus6768 3 days ago 看到 glm 我就要踩一脚,买谁都不要买他 |
18 anmie 3 days ago @zenfsharp 自媒体不这么写没人看啊, 但是你看 Deepseek 官方就实在多了,官方在公众号里,明确说了模型在某些方面比 xx 模型要弱,而不是无脑鼓吹遥遥领先。 这么说把,做信息分享类的自媒体,有一个算一个,肯定会夹带私货,在我看来,有一个算一个都是傻逼。 而看自媒体说的就深信不疑的人也是傻逼。 我自始至终,从大模型刚能聊天,到现在 agentic ,Deepseek 虽然不是最强的那个,但是一直都是我的主力,不为别的,我坚定的站在这样一个不焦虑,不浮躁的人和公司这边。(而 minimax 我根本试都没试过,不感兴趣。) |
19 metalvest 3 days ago GLM5.1 天气温度假,为什么排第一? |
20 weilongs 3 days ago minimax2.7 排不到那个位置. |
21 Desiree 3 days ago 暂时只用过 Glm 跟 minimax2.7 挺垃圾的,glm 勉强能用,但是比 cc 跟 codex 还是差一大截,minimax2.7 是完全不能用 |
22 zzz123456qqq 3 days ago 啊 |
23 richardwong 2 days ago GLM5.1 不支持多模态挺难受的 |
24 owt5008137 2 days ago via Android @richardwong 官方送的视觉识别 mcp 可以勉强顶一顶。 |
25 Azmeont 2 days ago GLM5.1 和 DSv4-Pro 体感都比 opus4.6 强,但 DSv4 胜在 1M 上下文 |
26 issakchill 2 days ago 看到 minimax 不上桌就放心了 |
27 Lighfer 2 days ago 不测一下 qwen3.6 27b 吗?据说编程能力也也很强? |
28 xiaomushen 2 days ago 基本同意,今天高强度用 DeepSeek V4 Pro |
29 xiangqiankan 2 days ago deepseekv4 只是编码方面的后训练不足,架构设计上这是唯一的真神,理论上是开源模型的天花板 |
30 mingtdlb 2 days ago GLM 是写代码比较强吗?我感觉他 chat 有点拉 |
31 iamzz 2 days ago 难兄难弟。 |
32 shuiduoduo 2 days ago via iPhone 和 claude4.7 对比一下呢 |
33 passion336699 2 days ago minimax 不做评价... |
34 |
35 Danswerme 2 days ago @shuiduoduo Claude Opus 4.7 不用对比,现在是全球范围内断崖式领先。 |
36 aikilan 2 days ago minimax 确实不行,之前自己写的应用去测试接入第三方 provider 的时候,用这家测试了下我一度怀疑是我自己的接入方式有问题 |
37 MagicLi 2 days ago kimi 为啥我感觉非常不耐用呢。100 的尝鲜套餐。 |
38 junwind OP 目前国内 glm5.1 ,kimi2.6 ,dsv4 可以选择,哪个能订阅,哪个便宜就用哪个。dsv4 我看好后期上华为卡后,价格再降一大波,并且应该也不会有订阅售罄的烦恼。 |
39 goodryb 2 days ago 这个测试多少有点敷衍了,网页版都是聊天的,测试编码起码用个 CLI 试一试吧 |
40 Adyun 2 days ago minimax 纯拉 29 元送了 |
41 ethanpeng 2 days ago |
42 WashFreshFresh 2 days ago @Danswerme #35 你是忘记加狗头了吗,不是默认都 4.6>4.7 |
43 mscsky 2 days ago minimax 没算力了吧 |
44 hotbaidu 2 days ago @zenfsharp opencode 的 Go 订阅 deepseek v4 是不是只有 flash 没有 pro ,我在其他平台测试 deepseek v4 flash 智力不如 kimi |
45 mscsky 2 days ago 要比也是本地部署了比 |
46 Tink PRO minimax 真的是烂完了,问着问着给我爆乱码了 |
47 jlkm2010 2 days ago GLM 5.1 >= DS v4 > Kimi 2.6 > minimax 2.7 > mimo v2.5 |
48 jimrok 2 days ago minimax 确实弱智,以后可以从测评里面剔除掉。 |
50 brucedone 2 days ago "不诱于誉,不恐于诽,率道而行,端然正己。" 就这个态度,做的事儿,这价格,就已经很顶了,编码不足人家自己也说了,不足就是不足,你也要让人家进步呀。 |
51 o99o 2 days ago 大家的 deepseek v4 是在 deepseek 自己家平台上订阅的么?感觉用的很快。10 块钱的 token 很快就没了。 |
52 fkdtz 2 days ago 在我印象里 minimax 效果还不错啊,甚至在打开这篇帖子之前我一直都这样以为, 怎么反差这么大?一直就这么拉吗?之前是营销号借着龙虾风无脑吹的吗? 有没有兄弟知道咋回事? |
54 coldle 2 days ago @fkdtz #52 minimax 一直狂蒸 claude ,在 minimax-m2.1 时代还能跟 glm-4.7 在某些场景互有来回,从 m2.5 开始就完全跟不上了,所谓的火只是卡在一个「效果比他好的模型参数大价格贵,参数比他小的模型效果比他差」的临界点,在养虾普遍 token 焦虑的时候搭了下顺风车 现在 deepseek-v4-flash 出来直接替换生态位,要多模态有 k2.6 ,要性价比有 v4f |
55 wwhc 2 days ago 楼主的测试有偏差,本地部署的 Qwen3.6 27B/35B 使用楼主的提示词都能生成达到楼主图中 GLM 的水准的代码渲染,本地部署的 gpt-oss 120B 倒真是惨不忍睹,生成的的代码渲染出的页面没法看 |
56 xixka 2 days ago 我自己的使用感受,Kimi 代码弱,glm 幻觉高,都只能是勉强 |
57 qxq94 2 days ago Minimax2.7 确实一句提示词垃圾,得补充一次功能无法运行,UI 界面太丑了。生成的也就还能看  |
58 litchinn 2 days ago 1M 上下文到底关不关键,在大型项目或长期开发中是否起关键作用呢? |
59 Jiajin 2 days ago |
60 coldle 2 days ago @litchinn #58 注意力不严重丢失的话,读大项目非常有用,实打实的「大就是好」。分别用 ds 和 glm 读大型项目就知道了,ds 还在正常聊的时候 glm 已经流口水了( 不过 ds 编程能力本身可能没 glm 那么特化(也可能是后训练不足的缘故),落实到具体写代码场景反而不如注意力飞速丢失的 glm |
61 tangwz 2 days ago 我实测了 DeepSeek V4 ,整理来说也是第一梯队,不过看评分还是 GLM5.1 和 KIMI 2.6 略微领先。 参考: https://www.bilibili.com/video/BV1gSoUBYEdV/ |
62 Jiajin 2 days ago @wwhc 核心问题是 codex 、cc 等工具内置了很多 agentic coding 的提示词,测试要控制变量。他是这个纯网页端测试。天然不适合这种任务。 |
64 lear7 2 days ago 个人认为 DeepSeek v4 Pro Max 能赶上 Sonnet 4.5 的效果,比 Sonnet 4.6 可能还差一点点。 至于其他国内大模型,我不用,浪费金钱是一回事,还浪费生命。 |
65 Jiajin 2 days ago @junwind 我的意思是你应该在同一个 agentic 工具(比如 claude code )下测试不同的本地部署的模型。控制变量。网页版各家都有自己的不同的提示词,甚至还有降智、限流。 |
66 wwhc 2 days ago |
68 ty29022 2 days ago |
70 calpes 2 days ago 你们每天测的都是啥场景,都是一句话小需求吗?都不说 harness 的场景,就标准 spec 模式下涉及超过 5 个服务的需求,你们那 200k 的上下文能 plan 出来个正经东西吗? ds4 最的不就是这个注意力打折的不是很厉害的 1M 上下文吗 |
72 jaoyina 2 days ago |
73 xiaomushen 2 days ago @calpes 总不能让他们拿着正经项目去测试吧,哈哈哈 |
74 calpes 2 days ago @xiaomushen 不看正经项目那不还是赛博斗蛐蛐吗? |
75 xiaomushen 2 days ago @calpes 不然呢?正经项目哪儿可能这么短时间,正经测一遍? |
76 xzpjerry731 2 days ago via iPhone Op 是在本地跑的吗 |
77 evilgod528 2 days ago glm5.1 和 其它(目前后端领域使用下来的体会),希望 ds v4 快点优化上来,干掉 Z |
78 justxwy 2 days ago https://x.com/hantmango/status/2048308533477945366?s=20 我测下来是 kimi 和 ds v4 pro 比较好。 |
79 KingGaruda 2 days ago 我感觉这个测试场景有点草率。。至少在你的 claudeCode 里选定模型测试?感觉偏差源于官方优化。 我只是好奇正经自开发场景下 glm/kimi/ds 哪个比较合适。 |
80 loolac 2 days ago 这样儿比较没意义,信息供应都不一致,deepseek-v4 的数据都还是 2025 年 5 月前的。 感觉上模型能力越强幻觉越严重。kimi2.6 用的比较多,但是 deepseek-v4 感觉比 kimi2.6 好很多。 |
81 stdout 2 days ago mimo v2.5 pro >= GLM 5.1 >= DS v4 pro >= kimi 2.6 > minimax 2.7 深度读代码找到 bug 解决 bug 的能力,写大量代码的话都不行。说实话 codex 真是免费给大家用的。codex100u 的性价比远超这些。国产还要加油啊 |
82 xFrye 2 days ago 对比之下 minimax 是路边的,官方的 kimi2.6 我觉得还不错,就是消耗有点快 |
84 phli 2 days ago 这是 gemini 3.1 pro 网页端生成的。 <!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="UTF-8"> <meta name="viewport" cOntent="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no"> <title>极简天气 H5</title> <script src="https://unpkg.com/vue@3/dist/vue.global.js"></script> <script src="https://cdn.tailwindcss.com"></script> <style> /* 隐藏滚动条但保留滚动功能 */ .no-scrollbar::-webkit-scrollbar { display: none; } .no-scrollbar { -ms-overflow-style: none; scrollbar-width: none; } </style> </head> <body class="bg-gradient-to-br from-blue-100 to-blue-300 min-h-screen flex items-center justify-center p-4"> <div id="app" class="bg-white/80 backdrop-blur-md rounded-3xl shadow-xl w-full max-w-sm p-6 overflow-hidden"> <div class="relative mb-6"> <input v-model="searchCity" @keyup.enter="getWeather" type="text" placeholder="输入城市名称,如:北京" class="w-full bg-white/90 px-4 py-3 rounded-xl shadow-sm focus:outline-none focus:ring-2 focus:ring-blue-400 transition-all text-gray-700" > <button @click="getWeather" class="absolute right-2 top-2 bottom-2 bg-blue-500 hover:bg-blue-600 text-white px-4 rounded-lg transition-colors font-medium" > 查询 </button> </div> <div v-if="loading" class="text-center py-10"> <div class="animate-spin rounded-full h-8 w-8 border-b-2 border-blue-500 mx-auto"></div> <p class="text-gray-500 mt-3 text-sm">正在获取天气数据...</p> </div> <div v-else-if="errorMessage" class="text-center py-8 text-red-500 bg-red-50 rounded-xl"> {{ errorMessage }} </div> <div v-else-if="weatherData" class="fade-in"> <div class="text-center mb-6"> <h2 class="text-3xl font-bold text-gray-800 tracking-wider">{{ weatherData.city }}</h2> <p class="text-gray-500 mt-1">{{ weatherData.date }}</p> </div> <div class="flex items-center justify-center mb-6"> <span class="text-6xl mr-4">{{ weatherData.icon }}</span> <div> <div class="text-5xl font-black text-gray-800">{{ weatherData.temp }}°C</div> <div class="text-xl text-gray-600 mt-1 font-medium">{{ weatherData.description }}</div> </div> </div> <div class="grid grid-cols-2 gap-4"> <div class="bg-white/60 p-3 rounded-xl flex items-center"> <span class="text-2xl mr-2"></span> <div> <div class="text-xs text-gray-500">湿度</div> <div class="font-bold text-gray-700">{{ weatherData.humidity }}%</div> </div> </div> <div class="bg-white/60 p-3 rounded-xl flex items-center"> <span class="text-2xl mr-2"></span> <div> <div class="text-xs text-gray-500">风速</div> <div class="font-bold text-gray-700">{{ weatherData.windSpeed }} km/h</div> </div> </div> <div class="bg-white/60 p-3 rounded-xl flex items-center"> <span class="text-2xl mr-2"></span> <div> <div class="text-xs text-gray-500">体感温度</div> <div class="font-bold text-gray-700">{{ weatherData.feelsLike }}°C</div> </div> </div> <div class="bg-white/60 p-3 rounded-xl flex items-center"> <span class="text-2xl mr-2"></span> <div> <div class="text-xs text-gray-500">能见度</div> <div class="font-bold text-gray-700">{{ weatherData.visibility }} km</div> </div> </div> </div> </div> <div v-else class="text-center py-12 opacity-50"> <span class="text-6xl block mb-4"></span> <p class="text-gray-500">搜索你关心的城市天气</p> </div> </div> <script> const { createApp, ref, onMounted } = Vue; createApp({ setup() { const searchCity = ref(''); const weatherData = ref(null); const loading = ref(false); const errorMessage = ref(''); // 模拟天气数据映射(用于演示) const mockIcOns= { '晴': '', '多云': '', '阴': '', '雨': '', '雪': '' }; const getWeather = async () => { if (!searchCity.value.trim()) return; loading.value = true; errorMessage.value = ''; weatherData.value = null; try { // [开发建议] // 此处应替换为真实的接口请求,例如和风天气 (QWeather) 或 OpenWeatherMap // const API_KEY = 'your_api_key'; // const respOnse= await fetch(`https://devapi.qweather.com/v7/weather/now?location=${searchCity.value}&key=${API_KEY}`); // const data = await response.json(); // 模拟 API 延迟 await new Promise(resolve => setTimeout(resolve, 800)); // 模拟数据结构拦截与拼装 if (searchCity.value.length > 10) { throw new Error('未找到该城市信息'); } const randomTemp = Math.floor(Math.random() * 30) + 5; const descriptiOns= ['晴', '多云', '雨', '阴']; const desc = descriptions[Math.floor(Math.random() * descriptions.length)]; weatherData.value = { city: searchCity.value, date: new Date().toLocaleDateString('zh-CN', { month: 'long', day: 'numeric', weekday: 'long' }), temp: randomTemp, feelsLike: randomTemp + (Math.floor(Math.random() * 4) - 2), description: desc, icon: mockIcons[desc], humidity: Math.floor(Math.random() * 50) + 30, windSpeed: Math.floor(Math.random() * 20) + 5, visibility: Math.floor(Math.random() * 10) + 5 }; } catch (error) { errorMessage.value = error.message || '获取天气信息失败,请稍后重试'; } finally { loading.value = false; } }; // 初始加载默认城市 onMounted(() => { searchCity.value = '北京'; getWeather(); }); return { searchCity, weatherData, loading, errorMessage, getWeather }; } }).mount('#app'); </script> </body> </html> |
85 slowgen 2 days ago 这个测试也太不严谨了。 开源模型的参数是有推荐的,不同的模型对于不同的任务场景,temperature 、top_p 、top_k 、min_p 、presence_penalty 、repetition_penalty 的数值都不同,你用网页版都不知道人家默认是针对什么场景配置的,做测试对比是要根据你自己的任务场景去设置的。 甚至是量化部署方案,比如同样 NVFP4 的量化,还要看用了什么数据集校准。 我就这么说吧,我本地部署的 MiniMax M2.7 ( nvidia 放出的 NVFP4 量化)和 Qwen 3.6 35B-A3B ( RedHatAI 放出的 NVFP4 量化)、Qwen 3.6 27B ( mlx-community 的 NVFP4 量化和 unsloth 的 UD + NVFP4 ),分别按照各模型文档的参数推荐来用对话模式按照你那一句话 prompt ,写出来的 html 都和你提到能上桌的模型都差不多。 |
86 junwind OP @slowgen 我不管这那的,我只想知道我一句话的需求,谁做完的成品最完整。未来的 Ai 畅想不就是这种发展吗,比如生图,image2 出来,满足了我对于一句话生图结果的预期。 这是之前用其它生图模型都无法达到的效果。 我觉得未来的 AI 就是这样,没必要写各种专业的提示词,我就用人话,你给我出符合预期的结果,然后在这个符合预期的结果上精修。 |
87 mewking 2 days ago @slowgen unsloth 的 UD + NVFP4 ??这个没看到啊,只有一个 Qwen3.6-27B-UD-MLX-NVFP4 ,而且不明这东西到底跑在 mac 上还是黄卡上?? |
88 slowgen 2 days ago @mewking 就是这个啊 https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4 从命名风格来说 UD 就是动态量化,带 MLX 的就是用 Apple 的 MLX 跑的,NVFP4 作为压缩保存的格式。 |
89 v400127 1 day ago 综合比较实用性和价格,不当花瓶,量大管饱,就只选 deepseek 4 了,其他的价格,我为啥选 kimi glm mimo 呢,他们的报价能和 gpt 对标吗 |
90 cskason 1 day ago 现阶段 GLM5.1 好比较好,刚开始使用 minimax2.7 的时候,觉得还不错,用了大半个月后经常超时,再过了一段时间发现降智到原来十分之一 |