
各位彦祖,由于公司给出了 AI 提效的压力,想请教一下各位,在爬虫开发工作中,是如何基于 AI 进行提效的,希望能深入一些。
1 samersions Apr 9 via iPad 写个 todo.md 让他去爬某个网站 agent 会自己分析,如果爬出来的不合要求就提点一下(哪个元素的哪个值),他自己全都搞好了。没有什么值得研究的了,因为不上 ai 自己要研究元素,上了 ai 他自己全部搞完没有给你留下自己干预的空间 |
2 KingZZZZ OP @samersions 方便说明一下使用的什么 agent 还有什么技能吗? |
3 members Apr 9 我感觉用颠覆形容比较准确。直接告诉他抓哪个网站,它会自己去不断的尝试、切换方案,最终成功。 |
4 samersions Apr 9 via iPad gemini-cli 和 opencode+glm5 ,没有额外装技能 |
7 cairnechen Apr 9 楼上的各位兄弟让 agent 去爬虫的时候没有遇到安全限制么?比如付费内容不让爬,成人内容不让爬 |
8 HotieCutie Apr 9 有反扒的网站,根本就不行,ai 解决不了 |
9 jonty Apr 9 唯一的限制是,现在有些 ai 的道德感太强。说的就是你,close ai |
10 fkdtz Apr 9 体感上来说,纯代码、数据层面的东西基本可以全部交给 AI 了 但想要规模化必然会涉及到 IP 、账号等这些实物的东西,而这些方面 AI 似乎能够发挥的作用有限 AI 搞定那些可以数字化的东西问题不大,涉及到实物作用有限 |
12 kamilic Apr 9 没风控和 captcha 的平台让他自己在里面游走下就写出来爬虫操作了,ai 分析稳定的部分挺好的,但是爬虫最怕不稳定,突然之间给你加点变化的那就歇菜,这些分支逻辑还是得趟的。 |
13 namebai Apr 9 我目前只会爬一些简单的接口 去搭建自动化的 workflow ,一般我会打开控制台 network ,然后录制一段时间请求,导出 HAR 文件,扔给 AI 自己分析,说出我的需求他就能把很多接口给我找到,感觉挺好用的。 |
15 feiniu Apr 9 我总感觉,复杂的 HTML 结构,给 AI 写解析脚本,写的总是不够好。 |
16 hantconny Apr 9 不知道能不能爬 facebook 的发帖时间,我自己干的时候需要从 network 里过滤特定的请求,仅分析静态页面是不行的,不知道道德感强的 ai 愿不愿意干 |
17 enrolls Apr 9 https://good-jobs.pages.dev/ 开始你的练手吧 |