爬虫开发工作中，你们是如何基于 AI 进行提效的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

推荐学习书目

Learn Python the Hard Way

Python Sites

PyPI - Python Package Index

http://diveintopython.org/toc/index.html

Pocoo

值得关注的项目

PyPy

Celery

Jinja2

Read the Docs

gevent

pyenv

virtualenv

Sentry

Shovel

Pyflakes

pytest

Python 编程

pep8 Checker

Styles

PEP 8

Google Python Style Guide

Code Style from The Hitchhiker's Guide

各位彦祖，由于公司给出了 AI 提效的压力，想请教一下各位，在爬虫开发工作中，是如何基于 AI 进行提效的，希望能深入一些。

爬虫

提效

17 replies 2026-04-09 17:47:01 +08:00

samersions

Apr 9 via iPad

写个 todo.md 让他去爬某个网站 agent 会自己分析，如果爬出来的不合要求就提点一下（哪个元素的哪个值），他自己全都搞好了。没有什么值得研究的了，因为不上 ai 自己要研究元素，上了 ai 他自己全部搞完没有给你留下自己干预的空间

KingZZZZ

Apr 9

@samersions 方便说明一下使用的什么 agent 还有什么技能吗？

members

Apr 9

我感觉用颠覆形容比较准确。直接告诉他抓哪个网站，它会自己去不断的尝试、切换方案，最终成功。

samersions

Apr 9 via iPad

gemini-cli 和 opencode+glm5 ，没有额外装技能

evan1

PRO

Apr 9

@members #3 遇到有反爬的需要抓包分析的，AI 也能自己尝试吗

glacer

Apr 9

@evan1 可以的，调 chrome mcp 可以用 ai 分析 js ，一般的加密，混淆甚至 jsvmp 都可以处理。

cairnechen

Apr 9

楼上的各位兄弟让 agent 去爬虫的时候没有遇到安全限制么？比如付费内容不让爬，成人内容不让爬

HotieCutie

Apr 9

有反扒的网站，根本就不行，ai 解决不了

jonty

Apr 9

唯一的限制是，现在有些 ai 的道德感太强。说的就是你，close ai

fkdtz

Apr 9

体感上来说，纯代码、数据层面的东西基本可以全部交给 AI 了
但想要规模化必然会涉及到 IP 、账号等这些实物的东西，而这些方面 AI 似乎能够发挥的作用有限

AI 搞定那些可以数字化的东西问题不大，涉及到实物作用有限

ydong

Apr 9

@glacer 你让 ai+mcp 试试套了阿里云 waf 触发的 js 验证的网站，稍微有点风控和反爬，ai 就歇菜了

kamilic

Apr 9

没风控和 captcha 的平台让他自己在里面游走下就写出来爬虫操作了，ai 分析稳定的部分挺好的，但是爬虫最怕不稳定，突然之间给你加点变化的那就歇菜，这些分支逻辑还是得趟的。

namebai

Apr 9

我目前只会爬一些简单的接口去搭建自动化的 workflow ，一般我会打开控制台 network ，然后录制一段时间请求，导出 HAR 文件，扔给 AI 自己分析，说出我的需求他就能把很多接口给我找到，感觉挺好用的。

glacer

Apr 9

@ydong 我不是说了偏简单的反爬可以处理，至少可以辅助做很多脏活了

feiniu

Apr 9

我总感觉，复杂的 HTML 结构，给 AI 写解析脚本，写的总是不够好。

hantconny

Apr 9

不知道能不能爬 facebook 的发帖时间，我自己干的时候需要从 network 里过滤特定的请求，仅分析静态页面是不行的，不知道道德感强的 ai 愿不愿意干

enrolls

Apr 9

https://good-jobs.pages.dev/ 开始你的练手吧