关于如何阻止网络爬虫

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3936 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近我一个网站被别人扒了，未避免广告嫌疑url就不贴了，不知道有什么有效的方法可以防止爬虫呢？

我想到的几个方法：
1、限制IP访问频率(无效，后台看不到有异常ip访问，我猜想爬虫大约五六分钟来一次)
2、用js动态加载数据内容(无效，爬虫支持js，且网站不利于seo)
3、抛出js异常，部分爬虫会无法解析(仅仅只是部分)

感觉爬虫和正常访问没啥区别，不知道有没有有效防止爬虫的方法

做爬虫的法律风险都有啥？感觉好像不太容易举证，求解答

爬虫

访问

无效

52 条回复 2015-03-18 09:32:54 +08:00

kslr

2015-03-17 09:40:44 +08:00

没有完美的防守，只能提高爬虫的成本。

往文本里面随机版权信息，但是白色字体试试？

GG668v26Fd55CP5W

2015-03-17 09:46:24 +08:00 via iPhone

斗智斗勇呗，哈哈

1023400273

2015-03-17 09:47:37 +08:00

@kslr
@falcon05 难道就这么跟他耗么

mgc

2015-03-17 09:49:56 +08:00

筛选搜索引擎IP，加入白名单
其他IP一律只能访问5个页面，超过2个页面需要登录

lingo233

2015-03-17 09:54:05 +08:00 via iPhone

你把12306的验证码系统搬来吧，访问一次输一次验证吗

lujiajing1126

2015-03-17 09:56:16 +08:00

做一套token系统
不过不能从根本上限制，因为爬虫可以尽可量模仿人的行为

1023400273

2015-03-17 10:03:03 +08:00

@mgc 不是搜索引擎，是一个竞争对手来扒的，他用的也不是固定ip，只允许访问5个页面的话可能会损失一部分流量，应该上面不会采纳这个意见的

@lingo233 这样估计就没流量了

@lujiajing1126 爬虫都可以模仿登录，token也应该无法根本解决

mgc

2015-03-17 10:05:18 +08:00

@1023400273 我自己就是做爬虫的，基本上是防不住的，办法已经告诉你了

1023400273

2015-03-17 10:10:25 +08:00

@mgc 感谢

lingo233

2015-03-17 10:12:52 +08:00 via iPhone

@1023400273 上面都说模仿人类行为了，不反人类怎么防:D

lujiajing1126

2015-03-17 10:14:14 +08:00

@1023400273 可以模仿登陆
但是有Token可以做限制，比如说某个接口一分钟请求次数，类似于令牌桶
增加爬虫的成本，如果爬虫爬的效率和人差不多。。那也没人会用了

1023400273

2015-03-17 10:22:50 +08:00

@lujiajing1126 如果我做一个爬虫更新自己网站的数据，我肯定模仿人类的点击呀，因为这个效率是可以接受，比如五分钟访问一次，如果太频繁访问肯定被墙的

lujiajing1126

2015-03-17 10:24:36 +08:00

@1023400273
那你还不如请个搬砖的帮你点呢
爬虫就是为了快速高效收集海量数据吧

1023400273

2015-03-17 10:25:21 +08:00

@mgc 不过话又说回来，你不担心会有法律风险吗，比如文字里面有版权，图片里面有水印啥的，哈哈

1023400273

2015-03-17 10:27:21 +08:00

@lujiajing1126 是高效，但是为了避免被墙，我还是会模拟人类行为的，如果觉得短时间内的数据不够，你可以同时爬多个同类型的网站

JamesR

2015-03-17 10:30:00 +08:00

加个验证码就行了，验证码过不了的IP自动进黑名单几天。

lujiajing1126

2015-03-17 10:31:19 +08:00

@1023400273
那当然可以，如果你有足够的钱买很多机器和IP，你甚至可以把它整个网站弄崩，就ddos
一般网络底层防ddos会考虑ip的数目来做网络包过滤
但是首先你得考虑你爬数据的成本和你自己制造这些数据哪个低一些。。
有钱，这些都不是事

xiaogui

2015-03-17 11:07:36 +08:00

上黄色反动内容，只对他的 ip 有效，然后被抓取以后，举报他。
哈哈，开玩笑啦。

fate

2015-03-17 11:11:19 +08:00

最重要的是要提高爬虫成本

cszhiyue

2015-03-17 11:30:56 +08:00

提高爬虫成本

oott123

2015-03-17 11:33:47 +08:00 via Android

做陷阱…藏普通用户看不到的链接，一点就封 ip 或者开始返回垃圾内容…
文字随机翻转然后用 css 转回来…

JoeShu

2015-03-17 11:39:12 +08:00

爬虫技术上的难点主要有:
1. ip限制，不过你的网站没有那么多的页面或者页面更新频率不多的话，这个可以用代理池来解决。
2. 登录验证码识别，目前的验证码识别率不高，这个目前只能通过图片识别、验证码库以及人肉来解决，不过这个会影响正常用户的访问。

其实搜索引擎本身就是通过爬虫来收录你的网站，楼主不希望影响seo，又不想影响流量，如果网站内容是原创的，不如试着收集证据直接给对方发律师函更有用。

sohoer

2015-03-17 11:41:49 +08:00

如果你的网站有海量数据，并且别人需要实时性较高的抓取你的数据，你可以考虑些策略对爬虫做限制

em70

2015-03-17 11:42:19 +08:00

写一段脚本每个小时分析一下日志,如果某个IP访问页面的数量超过一定值,就加入防火墙,每天凌晨解封全部IP

randyzhao

2015-03-17 11:44:22 +08:00

模拟browser行为的爬虫怎么防
验证码都能破

anguskwan

2015-03-17 11:45:43 +08:00

我跟你说，只要能看得见，我就能怕得到。

1023400273

2015-03-17 11:49:18 +08:00

@JoeShu 我也认为走法律途径比较有效

1023400273

2015-03-17 11:50:25 +08:00

@randyzhao
@anguskwan 确实

zhicheng

2015-03-17 12:35:45 +08:00

加一个隐藏的 flash 。

FrankFang128

2015-03-17 12:37:02 +08:00

图灵机测试

imlonghao

2015-03-17 12:42:07 +08:00 via Android

陷阱url，点中自动iptables见

CodeDrift

2015-03-17 13:05:10 +08:00

@imlonghao 那搜索引擎的爬虫不就完蛋了。。。

est

2015-03-17 13:13:52 +08:00

@zhicheng 再写点AS检测鼠标轨迹。。。

ryd994

2015-03-17 13:49:54 +08:00

主要是搜索引擎本质上也就是个爬虫啊……
你要封爬虫，还想不影响SEO……

qdwang

2015-03-17 14:30:02 +08:00

针对搜索引擎返回文本文字，其他用户一律返回转曲的文字。

invite

2015-03-17 16:18:35 +08:00

1、限制IP访问频率(无效，后台看不到有异常ip访问，我猜想爬虫大约五六分钟来一次)
2、用js动态加载数据内容(无效，爬虫支持js，且网站不利于seo)
3、抛出js异常，部分爬虫会无法解析(仅仅只是部分)

一个爬虫做到了以上几个，跟人在浏览不是一个样了？

或者你跟踪鼠标吧，一般人鼠标都会动来动去的。