最近 codex 新增了 5.4 能控制电脑,然后为啥不做个聊天控制 codex 呢? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
HomeZane
1.57D
V2EX    分享创造

最近 codex 新增了 5.4 能控制电脑,然后为啥不做个聊天控制 codex 呢?

  •  
  •   HomeZane 13 天前 1263 次点击

    最近看 openclaw 这波,有点离谱了

    我自己的感觉是,既然 5.4 能操作电脑,为啥不直接用 codex 呢。(当然还包含 codex 送的一个月会员太好使了,而且最近老充值额度,还有 2 倍,外加必须电脑使用)

    考虑到 codex 是分项目的,所以就选了 Discord 这个,一个频道绑定一个 Project 感觉挺合适的

    所以我顺手做了个小东西: discord-codex-bridge

    它做的事情很简单,就是把 Discord 频道变成一个项目入口。

    大概是这样:

    • 一个 Discord 频道绑定一个本地项目目录
    • 频道里发的消息,直接变成这个项目上的 Codex 任务
    • 每个频道自己保留 session ,上下文能续上
    • 同一频道串行执行,避免跑乱
    • 现在也加了 /review 、/cancel 、sandbox 这些基础能力

    我自己主要是拿它当一个更轻一点的远程入口。 比如电脑在家里挂着,本地跑着 Codex ,手机上 Discord 直接丢一句:

    “帮我 review 一下这个仓库” “看看这个报错” “改下 README”

    当然也适合直接操作电脑,回复消息。

    当然这东西现在还是偏 MVP 。 也不是给公开群随便开的,更适合可信环境,或者自己、小团队内部折腾。 本质上还是把本地 agent 的能力,用一个更顺手的入口接出来。

    仓库在这里: https://github.com/comeran/discord-codex-bridge

    10 条回复    2026-03-11 17:16:47 +08:00
    zhangsimon
        1
    zhangsimon  
       13 天前
    请教下大佬
    GPT5.4 说增强了电脑操作能力,能接近人类水平

    我让 codex 打开小红书浏览某个话题前 100 的笔记给我总结下
    为什么 codex 完全做不到
    codex 并不会模拟人类操作,一条条翻开笔记,而是尝试爬虫浏览,结果又爬取失败
    最终也没有完成我这个任务

    是我描述的不够具体吗?还是我对 codex 或 GPT5.4 能力 存在什么误解
    Dream4U
        2
    Dream4U  
       13 天前
    yeekal
        3
    yeekal  
       13 天前   1
    @zhangsimon 这确实是宣传上的容易误导的地方。 我理解 gpt5.4 的电脑操作能力 是指“如果你提供给他操控电脑的环境,那么他就能比其他模型更准确的操控电脑”, 注意这里的重点是它本质上还是一个大模型,不能直接操控电脑,他需要环境,需要配套的 skill ,需要能截图,能控制鼠标。所以回到你的问题,你需要在 codex 上安装能操控电脑的 skill 。 比如针对小红书,那需要安装浏览器自动化的工具或者专门针对小红书自动化的工具。不过我没研究过,推测是这样
    zhangsimon
        4
    zhangsimon  
       13 天前
    @yeekal 感谢回复,我刚发完贴又把问题发给了 GPT 问了下,大致回答意思和你说的一致;但 GPT 也给了我一个解决方案:让我在 codex 里说清楚不要用脚本而是真实浏览,拆解一步步来执行。我刚按照他说的试了下,确实跑通了。

    不过过程频繁蹦出来在让我确认执行的提示(我印象起码点了 20 多次……)
    有没有可能给他最大权限别提醒?
    还有就是你说的调用浏览器能力,有没有好用的 skill 推荐的?感谢大佬
    HomeZane
        5
    HomeZane  
    OP
       13 天前   1
    @zhangsimon 打开我本机安装的小红书 app ,然后搜索 #openclaw 前 100 条标记,总结一下内容

    我使用这个,他的操作是打开了我的小红书,但是的确尝试了一会说
    discover 的可访问性树基本拿不到内容,像是内嵌 WebView 。改用截图和坐标驱动:先看当前主界面,再定位搜索框和结果页。
    当前截图里没拿到应用内容,说明窗口虽然存在,但不在当前可见层或被全透明渲染。先把它强制前置并读窗口属性,再截窗口区域。
    桌面端应用本身不暴露可抓取的 UI 内容,系统截图也拿不到实际视图。我先转到更稳的取数路径:复用你现有的小红书登录态,直接拉 #openclaw 的前 100 条结果,再做聚类总结

    用 playwright 取网页结果,原因很直接:桌面端 discover 是受保护渲染层,UI 自动化和截图都拿不到可用内容。先验证你当前网页登录态,再决定是走页面抓取还是直接用本地 SDK/API 。

    出现这些问题,然后也是转去干爬虫了

    我让他去微信的话,能够进行点击开始总结,但是的确很慢,要强调不要走爬虫

    我和 @yeekal 理解差不多,毕竟是大模型,大模型里是比较好的,还得看后续发展
    HomeZane
        6
    HomeZane  
    OP
       13 天前
    @Dream4U 感谢大佬我学习下,感觉这个是 ios 原生的客户端,那会不会类似豆包手机这类的(因为不是 ios 手机,所以得回去才能看看)
    zhangsimon
        7
    zhangsimon  
       13 天前
    @HomeZane 感谢大佬~ 你安装 openclaw 了不,那在 openclaw 里使用 GPT 5.4 模型,能感受到对电脑操作的提升不,直观感受上的更牛了?
    Dream4U
        8
    Dream4U  
       13 天前
    @HomeZane #6
    不是,这是 Codex 电脑端的远程控制,用手机控制电脑上的 Codex
    HomeZane
        9
    HomeZane  
    OP
       13 天前
    @Dream4U #2 感谢感谢
    HomeZane
        10
    HomeZane  
    OP
       13 天前
    @zhangsimon #7 我直接用 codex 操作电脑了,openclaw 已经卸载了让我(有点烧钱)
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3355 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 39ms UTC 12:48 PVG 20:48 LAX 05:48 JFK 08:48
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86