
https://github.com/libi/ko-browser
利用 chrome 浏览器的辅助模式在快照阶段使用 axtree 构建一个纯文本的节点树,每个元素有一个唯一 ID. Agent 操作都基于纯数字的 id(例如填写输入框 kbr fill 4 xxx),所以非常节省 Token.
节点数结构示例:
Page: "Google" 1: link "Gmail" 2: link "Images" 3: link "Maps" 4: textbox "Search" focused 5: button "Google Search" 6: list 7: listitem 8: link "About Google" 9: listitem 10: link "Advertising" 11: heading "Trending" 12: link "Breaking news: Major tech announcement" 13: img "Google Logo" 欢迎大家试用哈, 使用 golang 的 chromedp 封装实现的.目前已经覆盖了 90%以上的常用指令.
本地有 go 环境的话 go install github.com/libi/ko-browser/cmd/[email protected] 就安装好了. 使用 kbr 指令即可.
没有 go 环境,就直接去 github 的 release 页面下载编译好的二进制包,全平台支持.
我目前尽可能完善了大部分的指令和参数的单元测试,跑了一些自己内部的 jenkins 界面操作都能跑通.更多更细致的场景还没有覆盖到,欢迎大家提交问题反馈哈.
1 yaidev 2 天前 via iPhone mark 思路很有趣 |
2 wfhtqp 2 天前 怎么解决? ``` Page: "请稍候…" 1: main 2: Iframe "包含 Cloudflare 安全质询的小组件" ``` |
4 miwuyouth 1 天前 无障碍模式吗,browser-use 也支持 |