
1 windyboy 4 天前 真的吗?理解物理世界规则的模型呢? |
2 BD8NCF 4 天前 这几天用 cursor 写嵌入式代码。 之前都是用 auto ,最近换成 opus 4.6, 确实令人震惊。 让它写一个 kalman 滤波相关的东西,它生成的代码没达到我想要的效果,我自己调整,发现越搞越糟。最后就直接告诉它有什么问题,贴日志给它看,让它改。 几个回合之后,几乎完美的完成。 缺点就是花钱如流水,剩下的都是优点。 |
3 lujiaxing 4 天前 我想去洗车,洗车店距离我家 50 米,你说我应该开车过去还是走过去? DeepSeek:走过去 阿里千问:走过去 字节豆包:走过去 腾讯混元:走过去 ChatGPT:走过去 Claude:开车去 Grok:走过去 Gemini:开车去 |
4 potatowish 4 天前 via iPhone @lujiaxing 只有 Gemini 、Claude 回答是开车去,其他模型智商都不在线 |
5 liyafe1997 4 天前 @BD8NCF Auto 肯定不太行...很可能选的是 Cursor 自家的那个垃圾模型。但是 Opus 感觉并没有比 Sonnet4.5 / GPT5.x-Codex / Gemini 3 Pro 强多少 |
7 bwnjnOEI 4 天前 via iPhone 这种评论还是太主观不过你说推上有营销成份肯定没问题。首先要排除是不是使用官方模型然后再排除使用习惯最后一项确定你是比如高级架构师 写 cuda 内核等等 |
8 gogo_tutu 4 天前 via iPhone 推特上那帮人没什么话题了就炒作 |
9 darkTianTian 4 天前 @lujiaxing 我觉得每人的结果可能有差异,claude 我不开思考模式,回答走过去。开了思考,回答开车。 |
10 dsd2077 OP PRO @bwnjnOEI 模型和习惯都没问题,ai coding 高级选手了。我只是想说 opus4.6 没有比 sonnet4.5 或者 codex5.2 强多少,(因为凡是后者解决不了的问题丢给 opus4.6 极大概率还是解决不了)。出于成本考虑我反而更会选择后者。 |
11 bwnjnOEI 4 天前 via iPhone @dsd2077 排除第一个因素,另外,这代 opus 确实退化了在 swe bench 上还是负优化,这版主要是面向通用型白领和 1m 上下文和多智能体协同甚至可能 dario 故意让你花费 token 更多。不过你说解决不了你的问题我打问号,cc 功能组合那么多 上下文组合效果千差万别,始终无法排出第二个问题。 |
12 MIUIOS 3 天前 除了更新到 1M 上下文 好像啥都没了 |
14 hengshenyu 3 天前 via Android @OZephyr 我问自助洗车店也是一样,千问豆包 DeepSeek 智商确实不如 gemini |
17 ryne6 3 天前 team 模式还不错 不会中断任务了 |
19 wuxilaoshiren 3 天前 Opus4.6 强太多了,我问了一个问题,我电脑上的小火箭怎么和公司 vpn 兼容,gemini 3.0 pro 耗费了接近 2 个小时,来回改配置来回折腾 都失败了,我用了 Opus4.6 就一二十分钟 3 次对话,解决了。。。。。。。。 完全不是一个档次的 |
21 dsd2077 OP PRO |
23 prosgtsr 3 天前 为啥我看 twitter 大家吹的是 codex5.3 呢 |
24 tohearts 3 天前 AI 是协同作战工具,对于我来说已经比 opus4.5 表现更加优异。 |
25 gjh 3 天前 GLM-4.7:开车过去 |
26 gjh 3 天前 MiniMax: 腿着去,开着回!♂ |
29 brucewzp 3 天前 |
30 wangyaominde 3 天前 AI 还是没有人离谱,我的建议是把车揣兜里,洗好再揣回来 |
32 jsyz 3 天前 @lujiaxing 我自己使用各个模型默认选项测了一遍:千问,deepseek ,Gemini ,kimi ,智谱都过关了,有的还根据场景提出不同解决方案,Claude 失败。 |
33 uni 3 天前 写代码我更喜欢 codex ,但是 Claude 的 agent 能力一骑绝尘: https://v2ex.com/t/1188881 我刚又测试了,同一个任务 opus 4.6 不到两分钟搞定,codex 5.3 走了无数弯路花了六分钟才搞定 |
34 chengrui0428 3 天前 |
36 newtype0092 3 天前 @lujiaxing 这种问题完全没有意义啊,各种专业团队耗费心力堆大量数据搞出来的 benchmark 不看,靠这种脑筋急转弯来验证模型水平? |
37 realpg PRO 神不神不是你能评价的 用的人不知道神不神吗? 你自己天生对 ai coding 的提示能力差, 什么 ai 都不神 |
41 nicewa 3 天前 我问 grok 也是开车去,难道被老马看到修复了 |
42 ihainan 3 天前 多屏蔽几个出啥 AI 模型/产品就吹的人,你的 Timeline 就会干净很多。 |
44 pingxu 3 天前 我用各家的免费版测试了一下,gpt 、Claude 和 grok 都说走过去,Gemini 说开车去,不过我朋友测了 gpt 让开车去,感觉有点随机性在里面。 |
45 Perihe1ion 3 天前 @xmdbb 你这是下到正版的了 |
46 junkei 3 天前 |
48 foryou2023 3 天前 |
49 lujiaxing 2 天前 |