
有个自己用的域名不想被收录,但是居然被收录了。。。 Google 和百度都有。可以防止被收录吗。 robots.txt 只是'由于此网站的 robots.txt ,系统未提供关于该结果的说明 - 了解详情。'
1 Liang 2015-11-11 22:45:41 +08:00 user-agent 来自蜘蛛就 404 ,这样可以吗? |
2 miyuki 2015-11-11 23:14:55 +08:00 不用 Chrome |
3 manus 2015-11-11 23:18:09 +08:00 不解析域名 自己访问设置 host |
4 dphdjy 2015-11-11 23:21:35 +08:00 那么这个网站干嘛的~~ |
5 imn1 2015-11-12 00:20:18 +08:00 你应该开到暗网里面 |
6 congeec 2015-11-12 00:41:31 +08:00 via iPhone @kuzhan 裸 IP ,没域名也能被爬.... Robots.txt 只能问人家愿不愿意爬你... 暗网是个好主意 噗哈哈。 |
7 Hello1995 2015-11-12 00:53:02 +08:00 via Android 我干过这么中二的事情。 方法一: robots.txt 。但是可能有些蜘蛛不遵守… 方法二:屏蔽蜘蛛 IP 。 但是工程量大… 方法三:屏蔽 UA 。 简单屏蔽 spider 和 bot 关键字… |
8 aluo1 2015-11-12 05:56:44 +08:00 是不是用 cgi 写的网页不会被爬? 求指教 :-) |
9 sivacohan PRO 全站 flash |
10 kindjeff 2015-11-12 08:54:08 +08:00 AJAX 返回数据,不会被搜素引擎爬取 |
11 franticonion 2015-11-12 09:09:19 +08:00 那就写个脚本刷 server 的 access log 了 屏蔽所有 spider 的 user agent 或者 ip |
12 mcone 2015-11-12 09:12:01 +08:00 你就是裸 ip 不绑域名照样能被爬到,更何况你已经有域名指过去了…… @Hello1995 说的方法貌似还可以,但是还得加上一条,不许任何人使用 chrome/360 浏览器访问你的网站(搜狗有没有我还不知道,但是,我觉得吧…………),这俩浏览器都会根据你输入的网址去爬的 多说一句,以上两个浏览器都是我当年测试过的,不保证现在还是这样,有兴趣的话你可以弄个很奇葩的 N 级域名指过去,指到一个随机生成文字的静态页面上测一测。 |
14 crazycen 2015-11-12 09:19:34 +08:00 via Android 网站不要监听 80 443 端口 |
15 imlinhanchao 2015-11-12 09:20:46 +08:00 <meta name="robots" cOntent="noindex, nofollow, nosnippet, noarchive"> |
16 frozenshadow 2015-11-12 09:23:38 +08:00 检测一下访问者的 8080 80 3306 。。。这种奇怪的端口有没有开 |
17 datocp 2015-11-12 09:23:46 +08:00 via Android qq 空间就因为有个人做了一个爬行网站,不得不加密码。现在自己的 blog 架在网上方便浏览,做了登录密码限制只允许自己看。 |
18 fengyqf 2015-11-12 09:36:04 +08:00 检查某个 cookie ,如缺失或非法就返回 404 (或其它异常状态) 然后自己做个隐秘的地址生成该 cookie ,或在浏览器里手工设置 cookie-其实也算是暗网了。 |
19 deadEgg 2015-11-12 09:40:06 +08:00 robot.txt not allow : /; 好像是这么写的 可以看看 http 权威指南 |
20 raptor 2015-11-12 09:43:33 +08:00 简单加一个 basic auth 即可 |
21 ChanneW 2015-11-12 09:45:43 +08:00 全部 js 生成 动态 dom |
22 quericy 2015-11-12 09:53:22 +08:00 自己访问 host 绑域名 站点设置只有自己本地绑的那个域名才能访问 |
23 wubaiqing 2015-11-12 09:55:55 +08:00 robots.txt ``` User-agent: * Disallow: / ``` |
25 realpg PRO 做一个 http basic auth ,认证提示是 密码是 123 ,密码是 123 即可 |
26 zhanlucky 2015-11-12 10:22:07 +08:00 所有页面的<head>里加上 noindex 标签: <meta name="robots" cOntent="noindex"> 不过注意,网站的 robots.txt 不能屏蔽搜索引擎,不然爬虫永远抓不到这个标签 |
27 ajan 2015-11-12 10:25:09 +08:00 |
28 int64ago 2015-11-12 10:26:27 +08:00 AngularJS or 页面直接生成 SVG ,体验其实也很好 |
29 gimp 2015-11-12 10:27:57 +08:00 后台生成图片,返回。 |
30 dphdjy 2015-11-12 10:29:08 +08:00 想起来台湾那边那个 PPT 论坛。。。绝对不会被抓取~ |
31 sneezry 2015-11-12 10:29:42 +08:00 |
32 penjianfeng 2015-11-12 10:38:22 +08:00 @sneezry 好主意,赞一个! |
33 hei1000 2015-11-12 10:44:42 +08:00 存在本地吧 |
34 learnshare 2015-11-12 10:56:03 +08:00 Robot 规则 |
35 caixiexin 2015-11-12 11:04:22 +08:00 放点能被 GFW 认证的信息,然后国内各大搜索引擎就屏蔽了。 再放点 18x 的东西,谷歌搜索默认也不显示了 =。= |
36 lenovo 2015-11-12 12:08:40 +08:00 |
37 leavic 2015-11-12 12:10:54 +08:00 内容全部用 Javascript 呈现 |
38 Tink PRO 全站 ajax 可以 |
39 blahgeek 2015-11-12 12:38:18 +08:00 via iPhone 为什么没有人说验证码呢? |
40 hqs123 2015-11-12 12:57:18 +08:00 这个很难做到把... |
42 bk201 2015-11-12 13:07:30 +08:00 既然你自己的限制 ip 访问好了 |
44 Felldeadbird 2015-11-12 13:54:31 +08:00 @kindjeff ajax 返回数据,谷歌照样抓。 太小看现在的技术了 |
47 dphdjy 2015-11-12 16:18:05 +08:00 |
49 hantsy 2015-11-12 16:25:47 +08:00 添加 robox 在 HTTP Server 。。。 |
50 hantsy 2015-11-12 16:28:01 +08:00 @int64ago AngularJS 就我的经验看,只有百度蠢,解析不了指令,做 SEO 需要额外的步骤。其它的 Google , Yahoo , Bing 不需要任何设置都一样爬得出来。 |
51 hantsy 2015-11-12 16:30:12 +08:00 @kindjeff 现在针对 Ajax , SPA 程序的专门 SEO 优化的项目大把。 Google 默认好像就根本不需要优化就可以爬 AngularJS 等。 |
52 vmebeh 2015-11-12 16:31:21 +08:00 via Android 主页用 js 跳转一下 |
53 flowfire 2015-11-12 16:46:35 +08:00 除了 ban ip 之外,其他的都是防君子不防小人的做法。 伪装 UA 又不是什么很难的事 |
55 ericls 2015-11-13 01:22:56 +08:00 放到 tor 里 |
56 lenovo 2015-11-14 00:55:50 +08:00 昨天把 36l 的.htaccess 换成这样貌似也可以阻止爬虫, Serf 是 pagespeed 的 UA Options -Indexes SetEnvIf User-Agent "^Mozilla" good_UA SetEnvIf User-Agent "^Serf" good_UA <Limit GET HEAD POST> order deny,allow allow from env=good_UA deny from all </Limit> |