V2EX maolon 的所有回复 第 1 页 / 共 13 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    maolon    全部回复第 1 页 / 共 13 页
回复总数  251
1  2  3  4  5  6  7  8  9  10 ... 13  
codex 不如 gemini 你认真的? gemini 那个 cli 怕不是谷歌这些程序员自己都不用,都不用提任务成功率,光是这个 cli 就难用的要死
把几个话题凑在一起谈那肯定就是吵架啊
1. ds 在工程上,学术上,以及大模型历史上的贡献大不大?非常大,而且现在依然很大
2. ds 的模型现在市场上还强吗?并不强,第二梯队都靠后了
3. ds 的模型还有没有用途?有没有性价比?有,有
4. 推不推荐用 ds ?不推荐,有很多更好的选择
我觉得英文那个排版读的非常难受,一段话才几个词就强制换行了,另外答案好像整的有点太明显了,都是最长的那个,178 WPM, Hard
4 天前
回复了 lmshl 创建的主题 Vibe Coding Vibe Coding 一年实践后的冷思考
挺好的感想, 我最近也在做 agent 实践测试(也是烧两家最贵的模型), 目前连续不停的的跑了一周, 目标是交给他一篇论文, 在工程层面上做出效果远超过论文提供的 benchmark 的结果。
结果是非常惊人的, 在 codex 和 cc 配合下他们确实逼近了我设定的一个目前不光论文没有实现,市面上开源的项目也都完全没有达到的 benchmark 值。
这说明 agent 不是不能达成全自动代理也不是不能完成超长程复杂任务而是他一定要有正确设计的反馈 loop , 比如在我的场景下就是 benchmark - 反思组合, 在大多数开发场景下就是 TDD 和 SDD 的合理使用
codex 之所以要用 worktree 是因为 gpt 有个不知算好还是坏的毛病, 他喜欢看当前工作区的情况 动不动就 git status --porcelain 一下, 然后如果你在一个工作区内开多个 codex instance ,而对方也改了文件,哦豁那就惨了。
他会认为工作区有多余文件不够干净然后 git reset 或者 git restore , 然后你前面辛辛苦苦弄的就都没了。 这个是他训练时候就这样,不是写 agents.md 就能完全解决的,为了避免惨剧发生用 worktree 保险
5 天前
回复了 shoushen 创建的主题 程序员 对大模型技术发展的两点判断
这个判断晚了两年 而且不要看大模型擅长哪方面而是投资人想看哪方面的能力
codex ,请
这个月还 * 2 的用量,普通人用个 plus 估计都用不完
(虽然我现在是 codex pro + cc 20x max
我现在用 codex 就这么玩 要 gpt5.2 high 和 gemini 3 pro 和 opus 4.5 一起评估方案,效果挺不错的
感觉不太准 我的项目一行代码没写他说 ai 贡献才 72.6%
有意思, 所以他的意思就是把 agent 的 workfow 应拆净拆到一个 atomic 语义的步骤然后把各个步骤固定化和容器化以应对 scale 和不确定性问题?
1 月 30 日
回复了 tf2 创建的主题 程序员 公司后端接口的返回:
成功错误
@lingguo 只是 rumor ,可信度不高,但是根据之前的规律来看 lite preview 也差不多该发布了,以及 pro preview 应该也快 GA 了
结合最近社区里的一些 rumor 和 ai studio 和 vertex 之前的表现,每次 api 开始不稳定一般就两种情况
1. vertexai 的更新 api(比如之前在内部测试 api 准备 GA 了)/更新 vertex 的配套功能( agent memory ,agent builder...etc )
2. 他们在准备 release 新模型,preivew 模型准备 GA
1 月 29 日
回复了 oness 创建的主题 推广 manus 1.6 太强大了,有点被震撼到了
只评价 ui 设计,这不就是正常的 opus4.5 / gemini 3 pro + ui design skill 输出的效果么,没看出什么特别的
@jolly336 你说的很有道理,如果要考虑泛化和可维护确实是一个挺难的问题,不过我觉得 runbook 的方法可能还是可行的(可以针对每个 app 一个 runbook ),从人维护变为使用 agent 来维护这个 runbook 里的路径,你只需要启发式的告诉这个维护 agent 需要检查哪些东西,甚至可以让他自行检查代码库和意图来写维护这个文档,人只做最终审核。
@Dabney 对不起,没有啥最佳实践,只能算是在摸索这方面
这不是一个场景,我打字的时候我其实在脑子里在思考和调整思路和逻辑,并且很方便的来回修改,语音你再依赖 ai 语义理解,你在思路都没想好就说也说不出个什么所以然来,这不是准确度的问题而是使用习惯的问题
我最近在开发 app ,感觉最简单朴素也是最实用的方法,直接写一个 e2e run book 的 md 让他读这个 file 然后按照固定行为检查(调用模拟器的 mcp )。
另外 token 消耗这个问题基本无解,就算是现在配置过的 mcp 只返回文字 layout 和按钮 id ,在关键步骤他还是要截图然后 agent 这边读图,依然是很烧 token 的行为(不如说自动化测试就没有不烧 token 的),好消息是未来 token 会越来越便宜,变成随便烧也没事的状态
gemini 现在比别家遥遥领先的就一个能力:他多模态可以原生读视频,甚至可以通过 url 直接读 youtube 视频,如果有这方面需求他就是无可替代的
1  2  3  4  5  6  7  8  9  10 ... 13  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2047 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 9ms UTC 12:54 PVG 20:54 LAX 04:54 JFK 07:54
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86