
最近看 openclaw 这波,有点离谱了
我自己的感觉是,既然 5.4 能操作电脑,为啥不直接用 codex 呢。(当然还包含 codex 送的一个月会员太好使了,而且最近老充值额度,还有 2 倍,外加必须电脑使用)
考虑到 codex 是分项目的,所以就选了 Discord 这个,一个频道绑定一个 Project 感觉挺合适的
所以我顺手做了个小东西: discord-codex-bridge
它做的事情很简单,就是把 Discord 频道变成一个项目入口。
大概是这样:
我自己主要是拿它当一个更轻一点的远程入口。 比如电脑在家里挂着,本地跑着 Codex ,手机上 Discord 直接丢一句:
“帮我 review 一下这个仓库” “看看这个报错” “改下 README”
当然也适合直接操作电脑,回复消息。
当然这东西现在还是偏 MVP 。 也不是给公开群随便开的,更适合可信环境,或者自己、小团队内部折腾。 本质上还是把本地 agent 的能力,用一个更顺手的入口接出来。
1 zhangsimon 13 天前 请教下大佬 GPT5.4 说增强了电脑操作能力,能接近人类水平 我让 codex 打开小红书浏览某个话题前 100 的笔记给我总结下 为什么 codex 完全做不到 codex 并不会模拟人类操作,一条条翻开笔记,而是尝试爬虫浏览,结果又爬取失败 最终也没有完成我这个任务 是我描述的不够具体吗?还是我对 codex 或 GPT5.4 能力 存在什么误解 |
2 Dream4U 13 天前 https://testflight.apple.com/join/PKZhBUVM Remodex 试试这个 |
3 yeekal 13 天前 @zhangsimon 这确实是宣传上的容易误导的地方。 我理解 gpt5.4 的电脑操作能力 是指“如果你提供给他操控电脑的环境,那么他就能比其他模型更准确的操控电脑”, 注意这里的重点是它本质上还是一个大模型,不能直接操控电脑,他需要环境,需要配套的 skill ,需要能截图,能控制鼠标。所以回到你的问题,你需要在 codex 上安装能操控电脑的 skill 。 比如针对小红书,那需要安装浏览器自动化的工具或者专门针对小红书自动化的工具。不过我没研究过,推测是这样 |
4 zhangsimon 13 天前 @yeekal 感谢回复,我刚发完贴又把问题发给了 GPT 问了下,大致回答意思和你说的一致;但 GPT 也给了我一个解决方案:让我在 codex 里说清楚不要用脚本而是真实浏览,拆解一步步来执行。我刚按照他说的试了下,确实跑通了。 不过过程频繁蹦出来在让我确认执行的提示(我印象起码点了 20 多次……) 有没有可能给他最大权限别提醒? 还有就是你说的调用浏览器能力,有没有好用的 skill 推荐的?感谢大佬 |
5 HomeZane OP @zhangsimon 打开我本机安装的小红书 app ,然后搜索 #openclaw 前 100 条标记,总结一下内容 我使用这个,他的操作是打开了我的小红书,但是的确尝试了一会说 discover 的可访问性树基本拿不到内容,像是内嵌 WebView 。改用截图和坐标驱动:先看当前主界面,再定位搜索框和结果页。 当前截图里没拿到应用内容,说明窗口虽然存在,但不在当前可见层或被全透明渲染。先把它强制前置并读窗口属性,再截窗口区域。 桌面端应用本身不暴露可抓取的 UI 内容,系统截图也拿不到实际视图。我先转到更稳的取数路径:复用你现有的小红书登录态,直接拉 #openclaw 的前 100 条结果,再做聚类总结 用 playwright 取网页结果,原因很直接:桌面端 discover 是受保护渲染层,UI 自动化和截图都拿不到可用内容。先验证你当前网页登录态,再决定是走页面抓取还是直接用本地 SDK/API 。 出现这些问题,然后也是转去干爬虫了 我让他去微信的话,能够进行点击开始总结,但是的确很慢,要强调不要走爬虫 我和 @yeekal 理解差不多,毕竟是大模型,大模型里是比较好的,还得看后续发展 |
7 zhangsimon 13 天前 @HomeZane 感谢大佬~ 你安装 openclaw 了不,那在 openclaw 里使用 GPT 5.4 模型,能感受到对电脑操作的提升不,直观感受上的更牛了? |
10 HomeZane OP @zhangsimon #7 我直接用 codex 操作电脑了,openclaw 已经卸载了让我(有点烧钱) |