
根据我后台的数据统计,谷歌的爬虫保守估计一天请求了我的网站 3 万次。
这还不算其他的一些搜索引擎的请求( yandex 之类的)。
这个数据正常吗?
如果一个恶意爬虫,user-agent 冒充是 Google。这个有办法识别吗?

下面晒一下昨天又拍云的费用账单,光是欧美的动态资源加速费用就 1.64 元(我是大陆中文网站哪会有欧美的用户?)。加上 https 加速和 cdn 流量费用是 2 元多。按这个标准,每个月我要付费 60 多块钱给欧美的爬虫!
我的真实 PV 才 3000 啊(百度统计的数据)。每日动态资源请求次数居然可以有 8 万,你敢信?

所以现在是要限制一下谷歌爬虫的请求频率?这个谷歌官方应该有设置。
我想求教大家的是:
如何准确的区分真实搜索引擎,和恶意爬虫?( user-agent 判断貌似不靠谱)
如何更好的反爬虫?判断一个 IP1 分钟、1 小时、1 天内的请求次数?
更关键的是:我想求教大牛:有没有真实案例自己网站日均 PV10 万+的?开 HTTPS 的情况下,这样的网站一个月的 CDN、流量费用要多少钱呢?( HTTPS 的 CDN 请求也要钱的!阿里云和又拍云的价格是:1 万次 0.05 元)
1 yulgang 2017-11-22 17:40:13 +08:00 更改 Googlebot 抓取速度 https://support.google.com/webmasters/answer/48620?hl=zh-Hans |
2 Zzzzzzzzz 2017-11-22 17:54:34 +08:00 robots 里设 Crawl-delay, 但几大厂流氓起来也有可能不管这个 判断是否爬虫也没什么好办法, 理论上可以反查 IP 的 PTR, 几大搜索引擎的爬虫一般都有注明, 但是搜索引擎为了防止作弊, 都有一些标称 IP 段外的 IP 做随机访问, 大规模针对性输出的反而可能有反效果 所以, 硬扛吧 |
3 kaer 2017-11-22 18:09:44 +08:00 日 PV 22 万左右 服务器费用加 CDN 费用 每月接近 7K-10k |
4 kungfuchicken 2017-11-22 18:25:33 +08:00 其实,你可以换一家动态加速不要钱的就解决啦 |
5 paranoiagu 2017-11-22 19:14:39 +08:00 via Android 没有国外用户,你可以关了国外加速。 |
6 0ZXYDDu796nVCFxq 2017-11-22 19:19:41 +08:00 via iPhone IP 贴出来啊,如果我是恶意爬虫,我也肯定用 Google 或者百度的 UA |
7 Le4fun 2017-11-22 19:52:26 +08:00 国外用户是不是部分人开了梯子没关访问你的网站 |
8 yytsjq 2017-11-22 19:56:48 +08:00 验证 Googlebot https://support.google.com/webmasters/answer/80553?hl=zh-Hans 要验证 Googlebot 是否为调用方,请执行以下操作: 1. 使用 host 命令对您日志中访问服务器的 IP 地址运行反向 DNS 查找。 2. 验证该域名是否位于 googlebot.com 或 google.com 中。 3. 对在第 1 步中使用 host 命令检索到的域名运行正向 DNS 查找。验证该域名与您日志中访问服务器的原始 IP 地址是否一致。 示例 1: > host 66.249.66.1 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com. > host crawl-66-249-66-1.googlebot.com crawl-66-249-66-1.googlebot.com has address 66.249.66.1 示例 2: > host 66.249.90.77 77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com. > host rate-limited-proxy-66-249-90-77.google.com rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77 |
9 opengps 2017-11-22 20:00:25 +08:00 你可以去谷歌设置下爬取频率 |
10 schema 2017-11-22 20:19:35 +08:00 你说没有海外业务,那关闭国外加速,关闭国外 HTTPS 就好很多了 |
11 isCyan 2017-11-22 20:22:53 +08:00 动态资源过 CDN 真的很费钱,动静分离吧 |
12 Loyalsoldier 2017-11-22 20:28:07 +08:00 又拍云的 动态资源加速 是所有项目中最贵的。问过客服,说:只要页面设置缓存超过 1 分钟,就不会被又拍云认为是动态资源。楼主可以试试把不重要的内容缓存 2 分钟…… 我们公司就是这样一个月省下 3K 的 |
13 wyan453351466 OP @Loyalsoldier 如果缓存 1 分钟的话,那类似用户登录的操作,还可以实时更新登录状态吗 我回头咨询一下他们客服。现在首页不可以缓存,其他页面都可以,就看登录这个能不能行了 |
14 wyan453351466 OP @paranoiagu 嗯,谢谢!我明天看看又拍云怎么设置。不过即使关闭加速,请求费用和 https 还是省不下来的。除非国外可以走不同的 dns。 这里又涉及到一个问题:如果国外直接访问源站的话,暴露服务器的 ip 会不会有安全问题 |
15 Loyalsoldier 2017-11-22 21:13:37 +08:00 |
16 Loyalsoldier 2017-11-22 21:16:29 +08:00 |
17 wyan453351466 OP @Loyalsoldier 不是,我的意思是,每个页面的头部都会显示登录状态的。如果登录了,其他页面被缓存,岂不是看不到登录状态了(还是显示未登录) |
18 Loyalsoldier 2017-11-22 21:23:05 +08:00 |
19 wyan453351466 OP @Loyalsoldier 所以就没办法了 |
20 mcfog 2017-11-22 22:15:23 +08:00 via Android @wyan453351466 动静分离的第一步就是把带状态的内容和静态内容分离啊,静态首页显示未登录的或者空白的头,js 请求登录态后再画头呗 |
21 wyan453351466 OP @mcfog 大神啊!之前看到一些大网站这么做的。没往这方面想。谢谢啦 |
22 wyan453351466 OP @mcfog 那这么说首页其实也可以静态的。首页的内容每次刷新会变化,这个也可以用 js 异步获取。不过我多了解下 seo 方面有什么影响。即使不优化首页,其他页面全部静态化,也要减少很多的动态费用了 |
23 huangunic0rn 2017-11-22 22:38:20 +08:00 via Android host 反解域名就行。带 Google 当然是谷歌 |
24 wdlth 2017-11-22 22:43:04 +08:00 国外的一般用云减速 CF 顶着,用网宿又拍什么的太壕了…… |
25 woshinide300yuan 2017-11-22 23:13:12 +08:00 哈哈,访问区域限制,只支持大陆? 然后关闭海外加速? 然后……根据 UA 限制一下抓取频率? 然后…… 解析到 127.0.0.1 /DOGE 哈哈~ |
27 Technetiumer 2017-11-23 00:38:50 +08:00 via Android DNS 分解析 海外 Incapsule 免 又拍 |
28 mytsing520 PRO @woshinide300yuan 他的访问区域功能,默认情况下开启境外,即开启境外节点,这部分结算费用比较高;关闭境外后,境外访问该网站则只使用中国大陆节点,而不是境外禁止访问 |
30 NowTime 2017-11-23 08:14:25 +08:00 via Android Google 等其它爬虫不会加载网页中的 js,所以你添加的 百度统计 代码,统计不到这些爬虫的访问记录。 |
31 shakoon 2017-11-23 08:24:11 +08:00 pv 3k 其实不用 cdn 也没多大问题,或者换个免费的好了 |
33 ss0xt 2017-11-23 09:21:55 +08:00 怕不是上次你爬煎蛋,过分,有人来搞你了?(滑稽 |
34 ninestep 2017-11-23 09:47:17 +08:00 静态资源防盗链,爬虫爬你的静态文件干嘛,肯定是有人用你的静态资源了 |
35 a1044634486 2017-11-23 09:50:30 +08:00 感觉 33 楼说的有道理 |
36 wyan453351466 OP @ss0xt @a1044634486 这件事我也不想再做太多的解释了。在遇到事情的严重性后,我已经在自己的网站下架了这个版块,并停止了对煎蛋的爬取。(仅凭我一个人一台渣渣服务器就可以对一个网站进行 ddos 攻击,那您真的是太高看我了) |
39 mymuw 2017-11-23 17:37:27 +08:00 试试这个 cdn 很便宜很稳定 www.kekaoyun.com |
40 lengyihan 2017-11-23 19:09:55 +08:00 via Android 用免费的吧, |
41 paranoiagu 2017-11-23 19:27:50 +08:00 via Android @wyan453351466 不会用原站的,就是国外用户访问了国内的 CDN,速度慢一点。 |
42 paranoiagu 2017-11-23 19:29:49 +08:00 via Android @mymuw 回源端口支持非标准端口吗?现在电信封了 80 和 443。 |
43 Hmily 2017-11-24 09:52:40 +08:00 可以在域名解析上区分析蜘蛛线路,可以选择重要蜘蛛回源不走 cdn,cdn 过来的假蜘蛛可以屏蔽。 |
44 8355 2017-11-24 10:26:12 +08:00 其实你的 PV 很可能超过 3000 因为现在浏览器的广告屏蔽插件都会屏蔽百度统计的 js 加载 所以实际上可能没有你看到的那么少. |