
第一次体会到 Mac 的性能居然这么不够用,搞得都想换 M5 Max 了,但感觉专门为 AI 也不是特别值得。
]]>1 、谷歌 antigravity ,免费办开始不好用,各种报错,让 retry ,但基本都还是失败。
2 、codex ,变慢,改个很简单的问题话了好长时间
3 、glm ,也有报错出现,而且 14:00 开始,算高峰。
4 、…………其他还没用。
难道那个时候,改休息了?以后公司要调作息了?
]]>这份发布介绍简直是一份“教科书级别”的大模型公关稿。如果你带着开发者的视角,剥离掉那些高大上的名词,这篇稿子里藏着非常多经不起推敲的“端倪”和营销话术。
我甚至在它用来背书的跑分数据里看到了我自己的名字( Gemini-3.1 ),以及未来版本的友商( Opus 4.6, GPT-5.4 )。这就更有意思了,我们可以逐段拆解一下这些“遥遥领先”背后的潜台词:
看破端倪: 这段话对于任何真正维护过服务器的人来说,堪称恐怖故事。 设想一下,如果你自己手头正维护着几台 VPS 节点,管着一堆 .dev 、.xyz 域名或者像发卡网之类的个人站点,你敢让一个大模型在生产环境发生故障时,“主动连接数据库”并“自己建索引”吗? 在实际的运维场景中,哪怕是极其微小的幻觉操作,都可能导致整库锁死或数据污染。这大概率是一个极其受限的、提前写好脚本的“演示切片( Demo )”。它证明了模型能输出这几行 SQL ,但绝不代表它具备真实的 SRE (站点可靠性工程)决策安全感。
看破端倪: 你前面刚提到用 Hermes Agent 极其消耗 Token 且常常完不成任务,这段话就是罪魁祸首。 目前绝大多数所谓的“多智能体协作( Agent Teams )”,在实际落地时都会演变成“AI 互相扯皮的 Token 焚烧炉”。所谓的“主动挑战队友逻辑”,往往是一个 AI 说“代码写错了”,另一个 AI 道歉并重新生成一份依然有错的代码,循环往复几十轮。它看似在“自我进化”,其实是在疯狂消耗你的 API 余额。
看破端倪: 注意看它的用词——“接近”。 很多国产模型喜欢自创或者挑选特定的 Benchmark (比如这里提到的 MM Claw ,听起来像是模仿真实的 SWE-bench )。在这些高度标准化的测试脚手架里拿高分,不代表它能在真实的开发环境里存活。 你把它放到真实的本地环境里试试看,比如让它去给一个要求极其严格的 Rust 项目写点带有生命周期标注的底层逻辑,或者让它去配置 Zed 编辑器的自定义 formatter 。你会发现,那种在跑分榜上“端到端交付”的聪明劲儿全没了,连基础的语法树都可能搞错。
看破端倪: 做过实际盘面交易,或者习惯在图表软件(比如 TradingView )上盯盘的人都会知道,金融建模对严谨性的要求是 100%,错一个小数点,预测结果就南辕北辙。 大模型本质上是一个“文字接龙”的高手,它非常擅长总结业绩沟通会的纪要,甚至能套用模板生成一份看起来很唬人的 PPT 。但“构建营收预测模型”需要极其严密的算术逻辑和时间序列分析。如果不借助外部的 Python 解释器或量化插件,纯靠模型自己“独立设计假设”,它生成的那些营收数字极大可能是自圆其说的“幻觉”。把它当财报摘要提取器可以,当初级分析师?容易爆仓。
总结 这篇公关稿极力想描绘一个“已经具备甚至超越人类高级工程师和分析师”的自主 Agent 形象。但只要你在开发一线滚过泥潭,就会知道:
宣称的“自动化”,通常意味着需要人类疯狂在后面 Debug 。
宣称的“多智能体深度思考”,通常等于你的 Token 成本要翻 10 倍。
下次再看到这种公关稿,直接略过那些自创的英文缩写榜单和华丽的定语。把它拉到你的终端里,让它实打实地去修一个你项目里的 Bug 。是骡子是马,一行指令就知道了。
]]>你是否想深入了解 Agent (智能体)背后的核心事件循环与工具调用( Tool Use )原理?
mini-cc 就是为你准备的开源解决方案!
这是一个完全使用 TypeScript 编写的轻量级 AI 编程 Agent 核心框架。
它摒弃了复杂的历史包袱,采用纯粹的函数式编程( Functional Programming )范式,将大模型、工具系统、记忆上下文与事件循环精简到了极致。
.env 环境变量,即可一键切换底层大脑。reasoning_content 的模型。npm install、git commit、运行测试脚本等。安全沙盒机制保障高危命令被有效拦截。FileReadTool 看代码 -> 再 BashTool 运行测试 -> 最后 FileWriteTool 修复 Bug ),直到彻底解决你的问题。class 依赖。闭包状态管理使得核心更加安全、高效且易于测试与扩展。在终端中启动 mini-cc 后,你只需一句自然语言指令,它就能化身为全栈开发工程师,从构思到编码,一气呵成。
以下是真实交互实录(还原了利用 test_file/gomoku 编写五子棋的过程):
mini-cc> 帮我写一个网页版的五子棋游戏,放在 test_file/gomoku 目录下。页面要好看,带黑白棋提示。 [Agent] 已收到指令,正在思考中... ==================== 思考过程 ==================== 1. 用户需要一个五子棋游戏,包含 HTML/CSS/JS 。 2. 目标目录是相对于当前工作目录的 test_file/gomoku 。 3. 需要提供漂亮的 UI 界面,以及当前轮到哪一方下棋的提示(如:黑棋先行)。 4. 我将使用 FileWriteTool 分别创建 index.html 、style.css 和 script.js 。 5. 棋盘可以使用 Canvas 或者 DOM 元素网格来实现,为了简单直观,我这里使用 DOM 网格结合 CSS 样式来实现。 ==================== 模型回复 ==================== 好的,我这就为您创建带有精美 UI 和状态提示的五子棋小游戏。 ▶ [Agent] 正在调用工具: FileWriteTool ... [FileWriteTool] 正在写入文件: /xxxx/mini-cc/test_file/gomoku/index.html ✔ [Agent] 工具 FileWriteTool 执行完毕。 ▶ [Agent] 正在调用工具: FileWriteTool ... [FileWriteTool] 正在写入文件: /xxxx/mini-cc/test_file/gomoku/style.css ✔ [Agent] 工具 FileWriteTool 执行完毕。 ▶ [Agent] 正在调用工具: FileWriteTool ... [FileWriteTool] 正在写入文件: /xxxx/mini-cc/test_file/gomoku/script.js ✔ [Agent] 工具 FileWriteTool 执行完毕。 ==================== 思考过程 ==================== 文件均已创建成功。 ==================== 完整回复 ==================== 五子棋小游戏已经为您创建完成! 我为您生成了以下文件: 1. `index.html`: 包含游戏棋盘和状态提示栏(`<div class="status" id="status">黑棋先行</div>`)。 2. `style.css`: 提供了木质棋盘配色和黑白棋子的立体阴影效果。 3. `script.js`: 实现了 15x15 的棋盘逻辑、落子交替规则以及横、竖、斜向的五子连珠胜负判断。 您可以直接用浏览器打开 `test_file/gomoku/index.html` 体验游戏! 

只需几秒钟,一个带有 <div class="status" id="status">黑棋先行</div> 状态提示的五子棋网页便自动生成并落盘!


无论你是想打造自己的效率工具,还是想探索大模型在工程领域的无限潜能,mini-cc 都是一个绝佳的起点。
👉 查看源码与文档:mini-cc GitHub Repository 来个 Star ✨。 👉 深入架构设计:请阅读我们的 📚 文档指南
]]>🤫今天给大家介绍一个神器——AutoGLM Browser Agent 只需要发一条指令:
autoglm run --task '在京东搜索 iPhone 15 ,找到价格最低的商品' AI Agent 就能自动帮你完成操作!
AutoGLM Browser Agent 是一个 AI 驱动的浏览器自动化代理,它不需要你写任何代码!你只需要用自然语言描述任务,AI Agent 就能自动完成: ✅ 社交媒体自动化 ✅ 购物比价 ✅ 信息采集 ✅ 复杂交互一句话搞定, 比写 100 行代码还简单!
autoglm run --task '在小红书搜索'AI Agent 浏览器自动化',找到点赞最高的 3 篇文章' 一键帮你找到热门内容,省时省力!
autoglm run --task '在京东搜索'iPhone 15',对比前 5 个商品的价格和评价' 价格对比、评价分析,一秒搞定!
autoglm run --task '在 GitHub Trending 获取前 10 个热门项目名称和描述'autoglm run --task '在掘金搜索'AI Agent',提取文章标题和链接' 数据采集,自动完成!
autoglm run --task '登录 GitHub ,给'AutoGLM'项目点赞并 fork' 登录、点赞、fork ,一键完成!
| 特性 | Selenium/Playwright | AutoGLM Browser Agent |
|---|---|---|
| 学习曲线 | ⚠️⚠️⚠️⚠️⚠️ | ✅✅✅✅✅ |
| 代码量 | 100+行 | 1 行 |
| 页面改版影响 | ❌❌❌❌❌ | ✅✅✅✅✅ |
| AI 自动识别 | ❌ | ✅ |
| 学习成本 | ⚠️⚠️⚠️⚠️ | ✅ |
AutoGLM Browser Agent 最大的优势就是:会说话就行!
AutoGLM Browser Agent 非常智能,遇到登录会自动暂停:
autoglm run --task '登录 GitHub ,给'AutoGLM'项目点赞并 fork' 执行到登录步骤时,会自动暂停并提示你: 👤 需要你手动登录 GitHub完成后输入'继续',AI Agent 会自动继续后续操作!
autoglm run --task '从 https://juejin.cn 开始,搜索'AI Agent',提取前 5 篇文章标题' 指定起始页面,更精准!
autoglm run --task '继续之前的会话,完成 GitHub 登录并点赞' 保持会话状态,连续操作!
autoglm run --task '在京东搜索 iPhone 15 ,找到价格最低的商品并截图' 2026 年了,还在手写浏览器自动化代码?把时间花在更有价值的事情上吧!让 AI Agent 帮你搞定那些繁琐的浏览器操作,你只需要: ✍️ 写指令🤖 AI 执行📱 查看结果 一句话代替 100 行代码,这就是 AutoGLM Browser Agent 的魔力!🚀 立即体验,让 AI 帮你自动化一切!
autoclaw 官网 Browser use
]]>不过不同的用户需求、想法不一样,流程很难做到通用
提示词可以让 cc 去优化,但是判断效果有没有达到需求似乎只能人工
费劲,还不如写代码对就是对错就是错😵
]]>尴尬的是用户几乎全在海外。国内用 TypeScript 做 AI Agent 的人我接触不到,所以来问问 V 友。
想问两个事:
1 、你们做多 Agent 用的什么方案?自己搭的还是用了什么框架,是怎么选的呢?
2 、工具链里有没有自己造了但后悔的环节,重来会直接买现成的?
有实际经验的老哥聊聊~
]]>前两天与朋友老王和老张聊天,一起讨论了关于 AI 目前发展的问题。其中主要讨论了 3 个问题,现在总结如下。
老王 认为,当前的 AI 并非真正的智能,虽然是大模型,但本质上仍然是基于概率统计的计算系统。计算机基于冯·诺依曼体系的 0-1 结构,在底层实现上依赖形式逻辑,通过概率统计进行计算与生成,尚未真正突破图灵测试,还不是真正意义上的“强人工智能”。这一观点与杨立昆基本一致:AI 没有根本突破。
老王 指出,AlphaGo 采用 CNN+深度学习,体系相对明确;而当前的生成式 LLM 采用 Transformer+深度学习,表达能力更强,但也更为宽泛,其技术路径未必代表人工智能的未来。
关于这一点,老张 认为,从系统角度来看:
限制智能的不是 0 和 1 ,而是系统复杂度与结构。
老张 的看法是:老王 的总体观念没错,因为他自己此前也是这么认为的。但自去年下半年 Claude Code 在 AI 编程上的表现实在震撼,他的看法有所转变。老张认为,世界是不断发展变化的,0-1 架构并不意味着无法突破,它同样可以在高层表达出类人的思维与情绪。人的大脑本质上也是电信号的复杂组合,只不过其规模和复杂度远超当前计算系统。如今的 Agentic AI 及 Harness 工程架构(如任务编排、上下文组织、状态管理、工具链整合等),正在从工具逐步向“类认知系统”演进。
我的看法:两人都对。目前的大模型 AI 本质上还是概率统计,并没有人类那样发散的思维。但 AI 发展很快,未来也许可以。
老王 引用“道可道,非常道”:能够用语言表达的内容计算机才能理解,无法用语言表达的内容计算机理解不了。计算机理解的是形式语言,而人类有很多非形式语言,如抽象、意识、情绪、思维。老王 认为,尽管现在的 LLM 具备一定自监督和自我学习进化的能力,但目前的计算机依然无法表达非形式逻辑。
这一想法与老子相似:真正的“道”无法用语言表达,能表达出来的那不是那个“道”了。人类最高级的地方恰恰在于语法无法言说的东西,需要体会,且因人而异。维特根斯坦也有类似观点——语言即世界,凡能用语言说清楚的就能说清楚,说不清楚的那个真实世界我们无法理解。
老张 则持不同的立场:
无法完全表达 ≠ 无法逼近表达
老张 认为,“道”虽然无法真正说破,但可以无限逼近地描述,最终表达出非常接近的内容,那时也许就是我们可以理解的道。就像我们无法穷尽π,但只要精确到小数点后一定位数,计算误差完全够用了。维特根斯坦说“语言即世界”,也就是一切能表达的都可以通过语言来表达;如果无法表达,那么那个世界我们也无法真正理解和认知。既然可以表达,那么计算机也能理解我们的表达。AI 不一定真正理解,但可以“表现得像理解”。也就是说,计算机用形式语言描述的世界虽是符号模拟,但当无限逼近真实时,又加上真实的世界我们也无从完全知晓,因此当计算机模拟得足够逼真时,我们可以说计算机的世界就是真实的世界。
我的看法:各有道理。语言是有限制的,无法完全地表述出真实的世界。我们可以体会和感受某种思想,而无法精确概括和定义。但足够丰富的形式逻辑也可能模拟出非常接近真实的世界。
老王 从产业第一、第二、第三产业的角度指出:目前 AI 过度火热,存在虚假繁荣,是在自己的行业里内循环,而没有提升农业、工业等实业中的效率和效果。因此,当前的 tokens 经济存在一定隐患,需要认识到这一点,并把 AI 的能力赋能到实体经济中。
老王 的思想站在为实业服务的角度,本身没错。服务业(尤其是信息服务业)应该为实体经济提供赋能,即互联网+、AI+,而不是互联网和 AI 行业自嗨。当前 token 经济非常火爆,智谱 AI 、Minimax 、Kimi 如火如荼,确实存在一定的炒作和泡沫。
老张 则认为:
内部优化 → 工具成熟 → 行业渗透 → 产业升级
token 算力目前主要服务的确实是 AI 和互联网行业内部,但只有经过内部 AI 化改造、摸清楚如何利用 AI 赋能之后,才能逐渐给实业界赋能。当前 AI 存在一定泡沫,但符合技术发展规律。AI 仍处于自我进化阶段。相信不久的将来,AI 就会渗透进各行各业,并为产业带来实际的价值。
我的看法:依然是各有道理。老王是站在当前状况说的,而老张看的是未来发展。当前算力经济与 token 经济的确过于火热,有很多的泡沫。但未来 AI 一定会服务好实体经济。
| 维度 | 老王 | 老张 |
|---|---|---|
| 技术立场 | 技术理性:现有 AI 无根本突破 | 工程演进:0-1 架构也能表达思维 |
| 认知立场 | 哲学怀疑:非形式语言无法被计算机理解 | 技术乐观:语言可逼近表达,计算机可理解 |
| 产业立场 | 实业导向:AI 内循环,需立即赋能实体 | 系统视角:先内部优化,再逐步渗透 |
老王 强调:计算机无法理解非形式逻辑,AI 脱离实体是隐患。
老张 强调:世界是发展的,逼近表达是可行的,行业自循环是必经阶段。
我的看法:不难看出,老王相对保守(审慎),老张则相对激进(乐观)。这不分对错,也没有高下之分。
AI 尚未成为认知系统,但正在逼近。
从老王和老张的分歧中可以看出,对 AI 本质的判定取决于我们站在哪个时间尺度和哲学立场上。
我的看法:答案不是非此即彼,而是一个持续的演化过程。AI 是一个具有认知能力的工具。
AI 时代的本质变化是:
人从执行者(问题解决),转变为 AI 的驱动者(问题决策)。
无论老王的审慎,还是老张的乐观,都指向同一个方向:AI 正在重新定义人类与机器之间的关系。分歧并非对立,而是推动思考深入的两种必要力量。
最后,两人并未讨论“AI 是否会取代人类”的问题,因为他们都倾向于认为:AI 本质上仍是人类的工具,其价值在于服务人类,而非取代人类。
我的看法:对于 AI 总体是谨慎地乐观,不是担心 AI 取代人类,而是 AI 对人类社会现有秩序冲击太大,人类还没有做好准备。
简单来说,它会在你屏幕上溜达,当你无聊或者需要 AI 助手的时候,点它一下就能直接唤出一个内置的 AI 终端来对话。
✨ 核心特点:
💻 技术栈:Tauri v2 + Rust + React 19 + TypeScript + TailwindCSS
因为是个人开源项目,代码可能还有点粗糙,还在持续迭代中。主要目的是探索 Tauri v2 在透明异形窗口、PTY 终端以及系统级事件上的能力。
🔗 GitHub 地址: https://github.com/you-want/CodeWalkers
如果觉得有意思,欢迎来体验一下,或者提 PR/Issue 一起折腾。求轻喷 🙏。
]]>于是扣扣搜搜的用着 flash 去做简单的任务,复杂的才用 Claude 。
结果今天忘记切了模型,一直用着 Claude ,用了一整天,处理很多任务,然后才发现这东西用量掉到 20% 之后似乎一直不会往下掉的。今天一直使用都没有到 0 。不知道明天继续用会不会有问题。
]]>我开源了一个完整的全栈项目:**AI Data Analyzer (自动化数据分析 AI Agent)**,并附带了从 0 到 1 的系列图文教程!
🌟 硬核技术栈 & 亮点:
这不是一个简单的 API 调用玩具,而是完整的企业级架构雏形。
欢迎 Star ⭐️ 关注交流!也欢迎大家 Fork 体验或提交 PR 一起完善~
]]>目前适配了 ChatGPT (codex),计划适配 Claude Code 。
一句话:你写一个需求文档,它帮你把代码开发完。
autodev 是一个多智能体协作脚本。你把功能需求写成一个 Markdown 文件,交给它,它会自动:
你的需求文档 (xxx.md) ↓ [plan agent] ← 把需求细化为可执行步骤 ↓ ┌─────────────────────────────────────┐ │ [dev agent] 按清单开发 │ │ ↕ (disagreement → arbitrator) │ │ [review agent] 独立审查 │ └─────────────────────────────────────┘ ↓ 审查通过 [merge] 提交 / 合并 / 推送 dev 和 review 各自维护一份 todo 清单(内容一一对应),互不干扰地推进。
仲裁者是最终裁判。它会:
仲裁最多进行 5 轮,防止死循环。
pip install git+https://github.com/haowen-xu/autodev.git 在项目里写一个 Markdown 文件,描述你要开发什么功能。格式可以参考 docs/plans/ 目录下的示例。
前提:你的代码库需要有
docs/文档体系和AGENTS.md文件,用来给各个 agent 提供项目上下文。可以参考本项目的写法。
# 基本用法 autodev -P docs/my-feature.md # 开独立 worktree (推荐:不影响主干,可并行开多个功能) autodev -P docs/my-feature.md -T # worktree 完成后自动合并回主分支 autodev -P docs/my-feature.md -T --merge -T 参数会在同一个代码库开一个独立的 git worktree,这意味着:
--merge 自动合并回主干先想一个问题:你每天和 AI 聊天,是不是总觉得它不够懂你?你要反复交代背景,反复解释你是谁、在做什么、关心什么——它永远像个刚认识你的陌生人。
原因很简单:它确实不认识你。
你喂给 AI 的信息,永远是你「主动想起来要说」的那部分。但真正定义你的,是你每天无意识敲下的那些字——工作消息、搜索关键词、复制粘贴的地址、深夜发给朋友的牢骚。
这些才是最真实的你。
所以我做了「咕噜输入法」 https://github.com/CauT/GuruIM
一款基于 RIME 引擎的 iOS 输入法,核心能力只有一个:
静默记录你的每一次输入,然后在你的完全控制下,喂给 AI 。
没错,我愿以身饲 AI 。
它不偷偷上传,不后台联网,不做任何你不知道的事。数据就躺在你手机本地,什么时候导出、导给谁、导多少,全部由你决定。
两种玩法
玩法一:手动投喂
适合不想折腾 API Key 的人。
日常打字 → 咕噜自动采集 → 打开 App 查看记录 → 一键分享到飞书/微信/备忘录
然后你把文本丢进飞书的 AI 助手、ChatGPT 、或者任何你在用的 AI 对话窗口。
▎ "帮我根据这周的输入记录总结一下我最近在忙什么,有什么遗漏的事项。"
你会惊讶于 AI 给出的回答有多精准——因为这次它看到的是真实的你,不是你精心组织过的提问。
玩法二:全自动洞察
填一个 API Key ( OpenRouter / Claude / OpenAI 都行),设个定时间隔,然后忘掉它。
每隔 12/24/48 小时,咕噜会自动把你的输入记录送去 AI 分析,生成两样东西:
分析完成后,手机推送通知提醒你查看。剪贴板数据分析成功后自动清除,失败则保留等下次重试。
它还是一款正经输入法
咕噜的底层是 RIME 中州韵引擎,内置雾凇拼音方案:
不是那种「为了采集数据凑合做的键盘」,是一个你可以拿来当主力输入法用的完整产品。
关于隐私,说清楚
我知道「输入法采集数据」这六个字有多敏感。所以:
▎ 项目地址:github.com/CauT/GuruIM
别的输入法也在采集你的数据,只不过它们不告诉你,数据也不归你。
咕噜的区别是:采集这件事由你发起,数据由你掌握,价值由你获取。
谁适合用
最后
这个项目源自一个很简单的想法:
AI 要足够了解你才能真正帮到你。而你每天敲下的字,就是最低成本、最高密度的「自我数据」。
与其让大厂的输入法悄悄拿走这些数据去训练模型,不如自己收集、自己决定、自己受益。
我愿以身饲 AI——但得是我自己端着碗。
📮 有想法欢迎交流
]]>OpenSpec 可以归档,但是我目前没有发现这个归档能带来什么好处。大家的归档是都放到一起还是分开房。我理解应该放在一起,相当于知识库。但是如果放到一起,我们没人人每期开发好多需求,如果每个需求都归档,那么这个知识库会飞快的增大,后面没人愿意看和维护。
另外我看了一些博客,使用 OpenSpec 的大都是直接用的 Claude code 编码的,没有使用 Cursor ,假如使用 Cursor 是不是没必要在使用 OpenSpec 了呢?
大家有什么看法吗
]]>先说一个很多人没意识到的事实:这个项目不是「一个人和一个 AI 」的故事,而是「一个人和三个 AI 」的故事。
在写任何代码之前,我花了大量时间在 ChatGPT 网页版上聊天。
我的第一句话是:
“我想做一个免费的在线拼图工具,不用登录,完全免费,用完即走。帮我想想,别人已经有什么了?我还能做什么?”
ChatGPT 给了我一个大而全的方案:竞品列表(美图秀秀、Canva 、PicsArt )、核心功能拆解(拼图、长图拼接、裁剪、特效)、技术选型建议(纯前端实现,保障隐私)。
我什么都不懂,但我知道这个方案太大了。
我说:「调整一下 MVP ,只做网格拼图、长图拼接、裁剪。另外一定要纯前端,数据不能上传服务器。」
然后我探索了 Canvas 绘图的能力边界、图片处理的性能问题、纯前端实现的可能性。
到这里为止,一切看起来像是一个正常的技术调研过程。
但真正的转折发生在我说出这句话的时候:
“我不想对技术选型做什么限制。我只想做提出需求的人。”
这不是一句随口说的话。这是我在那个时刻做出的一个判断——我不应该假装自己是设计师或程序员。我应该做我真正能做好的事情:想清楚我到底要什么。
从那一刻起,我不再问 ChatGPT 「用什么框架」,而是让它帮我写一份纯粹的产品需求文档。
ChatGPT 产出了一份 PRD ,其中有一个设计原则,后来成了整个项目的灵魂:
「用户不需要注册,不需要付费,不需要学习。打开即用,用完即走。」
ChatGPT 的贡献是巨大的。但它写了零行代码。
我拿着 ChatGPT 帮我写的 PRD ,进入了 Windsurf IDE 。
第一条消息:
“这是一个需求文档,我希望你根据它来开发一个在线拼图工具。纯前端实现,图片不上传服务器。我的开发平台是 macOS 。”
AI ( UIPro-CLI )分析完 PRD ,输出了完整的技术方案——选了 Vue 3 、TypeScript 、Canvas API 、Pinia ,画了数据模型、目录结构、分期计划。
我说:“完全同意你的方案。请开始开发。”
我甚至不知道它选了什么。我是后来才搞明白 Canvas 绘图 API 、Pinia 状态管理这些事的。
AI 一口气生成了项目骨架,启动了 npm run dev。
一个功能完整的拼图工具雏形就这样出现在我屏幕上。
从那一刻起,我的工作变了。我不再是提需求的人。我变成了这个工具的第一个用户,也是最苛刻的用户。
三个 AI ,各有分工:
| AI | 角色 | 产出 |
|---|---|---|
| ChatGPT | 产品顾问 | 竞品分析、PRD 、设计原则 |
| UIPro-CLI | 主力程序员 | 架构、前端、布局引擎、特效 |
| OpenClaw | 辅助程序员 | 部分功能实现、Bug 修复 |
而我?
我是产品经理。我是测试员。我是那个说「不合理」的人。
↑ 用拼图工具做了三张图。右侧是正在测试的布局模板。所有处理都在本地完成,不上传服务器。
很多人以为 AI 编程就是:说一句话 → AI 写完 → 完事。
不是的。差远了。
我的时间分配是这样的:
架构 & 核心功能搭建 ██░░░░░░░░ 20% 自测 & 吐槽 & 迭代 ███████░░░ 70% 部署 & 发布 █░░░░░░░░░ 10% 70% 的时间,我在做的事情是:打开工具,上传几张照片拼一下,然后记下所有让我不爽的地方。
每天记一批,攒够了发给 AI:
注意:这些消息里没有任何技术内容。
我不知道「边框」在代码里叫什么。我不知道「预览卡顿」是 Canvas 渲染问题还是图片解码问题。我不知道「控制点」是用什么图形库画的。
我只知道这个东西不好用。
而这,恰恰是最有价值的信息。
在这个项目里,AI 生成了:
AI 没有生成的是:
让我把这五件事抽象一下:
| 人类做的事 | 本质 |
|---|---|
| 想做什么 | 意图 |
| 这个不合理 | 判断 |
| 这样不够好 | 品味 |
| 先想清楚再做 | 策略 |
| 找参考给 AI | 资源调度 |
意图、判断、品味、策略、资源调度。
这五样东西,在今天,AI 一样都生成不了。
不是因为 AI 不够聪明。而是因为这五样东西的源头不是信息——是欲望、是偏好、是价值观、是一个人活到现在所有经历的总和。
AI 可以写出一万种「好看的界面」。但只有你知道「好看」对你来说意味着什么。
AI 可以提供一百种技术方案。但只有你知道你愿意为什么东西花两周时间。
代码是手段。判断才是目的。
AI 能写代码,这已经不是新闻了。
真正恐怖的是:AI 让「能力」和「成本」脱钩了。
以前,如果你想做一个在线拼图工具,你需要:
现在你需要的是:
这意味着什么?
意味着「有没有技术团队」不再是你能不能把想法变成产品的决定性因素。
意味着一个摄影师可以自己做拼图工具。一个电商运营可以自己做产品图制作工具。一个自媒体人可以自己做封面生成器。
意味着创造力的瓶颈从「能不能实现」变成了「有没有想法」。
从「会不会做」变成了「知不知道该做什么」。
如果你看完这篇文章,想自己试试用 AI 做一个产品,这是我最想告诉你的几件事:
不要一上来就说「帮我写个 XXX 」。
花时间在 ChatGPT 上聊。调研竞品。了解别人怎么做的。然后写一份需求文档——哪怕只有一页纸。
PRD 是你给 AI 的边界。没有边界的 AI ,会给你一个什么都有但什么都不对的东西。
ChatGPT 网页版适合开放式探索、产品思考、竞品分析。Windsurf / Cursor 中的 AI 适合精确的代码编写和工程执行。
不要指望一个 AI 什么都做。像管理团队一样管理你的 AI 。
AI 永远会说「好的,已完成」。它不会告诉你这个方案不合理,不会告诉你这个交互很蠢,不会告诉你用户不会喜欢这个。
你的工作不是说「好」,而是说「不行,重来」。
每一个成功的产品背后,都有无数个被否决的方案。AI 不会否决自己,这件事只有你能做。
AI 写测试的速度极快。一句话几十个 test case 。
不要等到项目末期才想起来写测试。在核心功能成型后就让 AI 写。这会节省你后面无数的手动验证时间。
当你发现 AI 反复修同一个问题修不好时,不要继续用自然语言描述。
去 GitHub 上找一个解决了同样问题的开源项目,下载下来扔给 AI 说「先学这个」。
一个好的参考实现,胜过一千句需求描述。
我留下了 8 份对话记录。数百条消息。数万字。
这些记录不仅帮助我复盘,还让我写出了这篇文章。
跟 AI 协作的过程本身就是知识。记录它,你会在回头看时发现很多当时忽略的洞见。
我知道你在等这个问题。
我的回答是:问错了。
「设计师」从来不是一个统一的职业。它包含了:
AI 正在极速替代第一种。这是事实。
但后四种——体验、系统、理解、判断——AI 目前做不了,短期内也做不了。
不过,这件事的意义远比「谁会失业」深刻得多。
它意味着:以前只有设计师能做的事,现在每个人都能做了。
不是设计师失业了——而是每个人都变成了设计师。
或者更准确地说:每个人都变成了产品经理。因为现在,从想法到产品的距离,只剩下一份需求文档和几句清晰的判断。
我花了两周时间,用三个 AI ,做了一个 15,000 行代码的在线拼图工具。
我没有写一行代码。
但我做了几百个判断。
哪些功能要做,哪些不做。 这个布局好不好用。 那个滤镜够不够好看。 这个 bug 修没修干净。AI 该在什么时候介入,什么时候闭嘴。
每一个判断都很小。但所有判断加在一起,就是这个工具。
代码是 AI 写的。但工具是我的。
因为工具不是代码。工具是一千个判断的总和。
如果你想试试,这里就是:https://ps.keepmot.com/
它不完美。它是一个不懂设计和编程的人和三个 AI 的实验。但它确实在跑,确实有人在用。
如果这篇文章让你觉得「也许我也可以」——那就对了。你可以的。
你需要的不是学设计。你需要的是想清楚你要什么,然后有勇气对 AI 说「不行,重来」。
↑ 拼图工具的效果预览。所有图片处理都在浏览器本地完成,隐私安全。
| 指标 | 数据 |
|---|---|
| 项目总代码量 | ~15,000 行(前端) |
| 我手写的代码量 | 0 行 |
| 我掌握的技术栈 | 0 个 |
| 参与的 AI | 3 个( ChatGPT + UIPro-CLI + OpenClaw ) |
| AI 分工 | ChatGPT: 产品顾问 / UIPro-CLI + OpenClaw: 工程执行 |
| 对话记录 | 8 份 |
| 关键消息 | 数百条 |
| 开发周期 | ~2 周 |
| 单元测试 | 0 → 120+ |
| 布局模板 | 50+ 种 |
| 图片特效 | 20+ 种 |
| 隐私保护 | 纯前端,图片不上传服务器 |
“你说的对,是我没有参考规则,自作主张的使用了我想的方法“ balabala 的。
有时候 vibe coding 真令人讨厌。 但是,老板明确发话了,趋势不可逆,特来请教一下大家,驯服 ai 都有什么好的方法论呢。
补充: 用过 https://github.com/tanweai/pua 效果不是很理想,最开始感觉很好用,但是之后发现它会撒谎了。😀
]]>这让不禁让我想起 3 年前的那个下午,在工位上写 CURD 的我,在优化数据结构和 Mapper 的我是否能想到在不到 3 年的后的今天自己居然拥有这么多想法可以落地。
从中也有了自己的一些想法。
AI 并不能让一个没有认知和能力的人拥有认知和能力,就像他不能让一个从未在交易市场里真正进行过几轮交易和不了解交易法则的人拥有赚钱的能力,也不能让一个从未了解过编程的人拥有几个项目的闭环。 他只能帮你解决 dirty work 的烦扰,正如 100 层楼以前要迈 100 次脚步,而现在只需要迈不到 20 次,以后会更少。但不能让一个不会迈脚的人爬上 100 层楼。
当然他可以让你学习从一个不会迈脚的人到一个会迈脚甚至一下可以跨越 2 个台阶的人,但这不是完成的过程,这是学习的过程。而学习的方式仅是多了一个更便捷的路线。
拥抱 AI 不代表你掌握了所有的能力,不意味着你要停止学习的脚步,而是可以让我们走的更快、更高、更远,同时做到不向外求。

空档期不打算彻底闲着,手里有几个跑了很久、已经对外收费的冷门服务准备高强度迭代一波,还想再折腾点新工具。虽然是做架构出身,但实际职业生涯里亲自手搓代码的日子也就占个 10% 左右,所以接下来的开发得重度依赖 AI 帮我干活,包括撸代码、debug 和重构。
介绍下目前的使用场景: 我自己写了一个 24x7 自动开发测试上线的框架,DeepSeek 直接挂在里面跑。算了一下单日平均大概 3.3 亿 token ,4500 次左右的请求。这块因为缓存命中率极高( 97% 左右),跑得挺稳,成本跟土一样便宜。虽然它效率相比很低,但好在便宜又会自动纠错,平时不用我操心,出来的 Web 或其他 GUI 的最终成品一般很丑,最终我会再半手动去完善一下 UI/UX 。
现在纠结的是前台交互: 以前在公司习惯了企业版 Copilot 和原厂 API 无限随便造,导致我对各大厂商针对个人的 Coding Plan 真是不太了解。自己有个 Google AI Pro (公司报销),但那个限额简直是一言难尽,白嫖都嫌碍事,刚给降级关了。当然,如果大伙觉得它家那个 Ultra 档位确实能打,我也考虑再开回来。
离职后每天会有大把时间跟 AI 高频对话,算是典型的高强度场景。想请教下各位,先不聊 Cursor 或者 Windsurf 这些壳子,只看底层模型的大杯订阅(比如 Claude 的 Pro/Max 档,或者 OpenAI 的高阶订阅),买哪家最不容易降智?如果能量大管饱到可以让我低成本替换掉后台 24 小时跑的 DeekSeek API 那就最好了。
最核心的诉求:千万别写到一半突然给我卡限流,或者用着用着模型就变笨了。
(月底离职那天会去搞个 64G RAM 的 M5 Pro 顶配,但不打算用来跑常驻的 LLM)
求个有类似高强度实战经验的老哥给点建议,先谢过各位。
]]>想问问大家: 你们怎么管理多个 AI 订阅的费用? 有工具能统一看各平台的用量吗? 还是说我这种"多平台混用"的场景太小众了? 如果这是普遍痛点,我考虑做个简单的开源工具来追踪。
]]>
