有没有办法不让搜索引擎收录 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
just1
V2EX    程序员

有没有办法不让搜索引擎收录

  •  
      just1 2015-11-11 22:43:22 +08:00 via Android 7598 次点击
    这是一个创建于 3693 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有个自己用的域名不想被收录,但是居然被收录了。。。 Google 和百度都有。可以防止被收录吗。 robots.txt 只是'由于此网站的 robots.txt ,系统未提供关于该结果的说明 - 了解详情。'

    第 1 条附言    2015-11-12 12:27:11 +08:00
    自己的一些工具,各种特殊权限。被爬虫抓不太好。很感谢大家的回复,我选择了蜘蛛返回 404 。
    第 2 条附言    2015-11-14 00:28:02 +08:00
    其实看到很多人说 robots ,我不是在主题里就说了吗,没有用地
    56 条回复    2015-11-14 00:55:50 +08:00
    Liang
        1
    Liang  
       2015-11-11 22:45:41 +08:00
    user-agent 来自蜘蛛就 404 ,这样可以吗?
    miyuki
        2
    miyuki  
       2015-11-11 23:14:55 +08:00
    不用 Chrome
    manus
        3
    manus  
       2015-11-11 23:18:09 +08:00
    不解析域名 自己访问设置 host
    dphdjy
        4
    dphdjy  
       2015-11-11 23:21:35 +08:00
    那么这个网站干嘛的~~
    imn1
        5
    imn1  
       2015-11-12 00:20:18 +08:00
    你应该开到暗网里面
    congeec
        6
    congeec  
       2015-11-12 00:41:31 +08:00 via iPhone
    @kuzhan 裸 IP ,没域名也能被爬....
    Robots.txt 只能问人家愿不愿意爬你... 暗网是个好主意 噗哈哈。
    Hello1995
        7
    Hello1995  
       2015-11-12 00:53:02 +08:00 via Android
    我干过这么中二的事情。
    方法一: robots.txt 。但是可能有些蜘蛛不遵守…
    方法二:屏蔽蜘蛛 IP 。 但是工程量大…
    方法三:屏蔽 UA 。 简单屏蔽 spider 和 bot 关键字…
    aluo1
        8
    aluo1  
       2015-11-12 05:56:44 +08:00
    是不是用 cgi 写的网页不会被爬?
    求指教 :-)
    sivacohan
        9
    sivacohan  
    PRO
       2015-11-12 06:53:15 +08:00 via Android   1
    全站 flash
    kindjeff
        10
    kindjeff  
       2015-11-12 08:54:08 +08:00
    AJAX 返回数据,不会被搜素引擎爬取
    franticonion
        11
    franticonion  
       2015-11-12 09:09:19 +08:00
    那就写个脚本刷 server 的 access log 了 屏蔽所有 spider 的 user agent 或者 ip
    mcone
        12
    mcone  
       2015-11-12 09:12:01 +08:00
    你就是裸 ip 不绑域名照样能被爬到,更何况你已经有域名指过去了……

    @Hello1995 说的方法貌似还可以,但是还得加上一条,不许任何人使用 chrome/360 浏览器访问你的网站(搜狗有没有我还不知道,但是,我觉得吧…………),这俩浏览器都会根据你输入的网址去爬的

    多说一句,以上两个浏览器都是我当年测试过的,不保证现在还是这样,有兴趣的话你可以弄个很奇葩的 N 级域名指过去,指到一个随机生成文字的静态页面上测一测。
    wizardoz
        13
    wizardoz  
       2015-11-12 09:17:08 +08:00
    @aluo1 cgi 接口只是服务器端内部的交互方式,从访问者来看无法区分。
    crazycen
        14
    crazycen  
       2015-11-12 09:19:34 +08:00 via Android
    网站不要监听 80 443 端口
    imlinhanchao
        15
    imlinhanchao  
       2015-11-12 09:20:46 +08:00
    <meta name="robots" cOntent="noindex, nofollow, nosnippet, noarchive">
    frozenshadow
        16
    frozenshadow  
       2015-11-12 09:23:38 +08:00
    检测一下访问者的 8080 80 3306 。。。这种奇怪的端口有没有开
    datocp
        17
    datocp  
       2015-11-12 09:23:46 +08:00 via Android
    qq 空间就因为有个人做了一个爬行网站,不得不加密码。现在自己的 blog 架在网上方便浏览,做了登录密码限制只允许自己看。
    fengyqf
        18
    fengyqf  
       2015-11-12 09:36:04 +08:00
    检查某个 cookie ,如缺失或非法就返回 404 (或其它异常状态)
    然后自己做个隐秘的地址生成该 cookie ,或在浏览器里手工设置 cookie-其实也算是暗网了。
    deadEgg
        19
    deadEgg  
       2015-11-12 09:40:06 +08:00
    robot.txt
    not allow : /;

    好像是这么写的 可以看看 http 权威指南
    raptor
        20
    raptor  
       2015-11-12 09:43:33 +08:00
    简单加一个 basic auth 即可
    ChanneW
        21
    ChanneW  
       2015-11-12 09:45:43 +08:00
    全部 js 生成 动态 dom
    quericy
        22
    quericy  
       2015-11-12 09:53:22 +08:00
    自己访问 host 绑域名
    站点设置只有自己本地绑的那个域名才能访问
    wubaiqing
        23
    wubaiqing  
       2015-11-12 09:55:55 +08:00
    robots.txt
    ```
    User-agent: *
    Disallow: /
    ```
    aluo1
        24
    aluo1  
       2015-11-12 10:10:15 +08:00
    @wizardoz 哦哦,谢谢 :-)
    之前看到一篇文章说到 cgi 写的网页不能被搜索引擎搜到,也不太明白
    realpg
        25
    realpg  
    PRO
       2015-11-12 10:13:20 +08:00
    做一个 http basic auth ,认证提示是 密码是 123 ,密码是 123 即可
    zhanlucky
        26
    zhanlucky  
       2015-11-12 10:22:07 +08:00
    所有页面的<head>里加上 noindex 标签:
    <meta name="robots" cOntent="noindex">
    不过注意,网站的 robots.txt 不能屏蔽搜索引擎,不然爬虫永远抓不到这个标签
    ajan
        27
    ajan  
       2015-11-12 10:25:09 +08:00
    int64ago
        28
    int64ago  
       2015-11-12 10:26:27 +08:00
    AngularJS

    or

    页面直接生成 SVG ,体验其实也很好
    gimp
        29
    gimp  
       2015-11-12 10:27:57 +08:00
    后台生成图片,返回。
    dphdjy
        30
    dphdjy  
       2015-11-12 10:29:08 +08:00
    想起来台湾那边那个 PPT 论坛。。。绝对不会被抓取~
    sneezry
        31
    sneezry  
       2015-11-12 10:29:42 +08:00   4
    penjianfeng
        32
    penjianfeng  
       2015-11-12 10:38:22 +08:00
    @sneezry 好主意,赞一个!
    hei1000
        33
    hei1000  
       2015-11-12 10:44:42 +08:00
    存在本地吧
    learnshare
        34
    learnshare  
       2015-11-12 10:56:03 +08:00
    Robot 规则
    caixiexin
        35
    caixiexin  
       2015-11-12 11:04:22 +08:00
    放点能被 GFW 认证的信息,然后国内各大搜索引擎就屏蔽了。
    再放点 18x 的东西,谷歌搜索默认也不显示了
    =。=
    lenovo
        36
    lenovo  
       2015-11-12 12:08:40 +08:00
    leavic
        37
    leavic  
       2015-11-12 12:10:54 +08:00
    内容全部用 Javascript 呈现
    Tink
        38
    Tink  
    PRO
       2015-11-12 12:19:29 +08:00 via iPhone
    全站 ajax 可以
    blahgeek
        39
    blahgeek  
       2015-11-12 12:38:18 +08:00 via iPhone
    为什么没有人说验证码呢?
    hqs123
        40
    hqs123  
       2015-11-12 12:57:18 +08:00
    这个很难做到把...
    WenJimmy
        41
    WenJimmy  
       2015-11-12 13:03:39 +08:00
    @caixiexin 哈哈哈
    bk201
        42
    bk201  
       2015-11-12 13:07:30 +08:00
    既然你自己的限制 ip 访问好了
    Shunix
        43
    Shunix  
       2015-11-12 13:49:39 +08:00
    @fengyqf 又碰见老熟人了
    Felldeadbird
        44
    Felldeadbird  
       2015-11-12 13:54:31 +08:00
    @kindjeff ajax 返回数据,谷歌照样抓。 太小看现在的技术了
    Smilecc
        45
    Smilecc  
       2015-11-12 14:33:45 +08:00
    @leavic Google 现在的技术已经可以爬到这种站点了
    ilililili
        46
    ilililili  
       2015-11-12 16:07:49 +08:00
    @dphdjy 这么有意思,啥网站
    dphdjy
        47
    dphdjy  
       2015-11-12 16:18:05 +08:00
    icon
        48
    icon  
       2015-11-12 16:24:27 +08:00
    @sneezry 这个看起来挺简单 这个方法有用吗
    hantsy
        49
    hantsy  
       2015-11-12 16:25:47 +08:00
    添加 robox 在 HTTP Server 。。。
    hantsy
        50
    hantsy  
       2015-11-12 16:28:01 +08:00
    @int64ago AngularJS 就我的经验看,只有百度蠢,解析不了指令,做 SEO 需要额外的步骤。其它的 Google , Yahoo , Bing 不需要任何设置都一样爬得出来。
    hantsy
        51
    hantsy  
       2015-11-12 16:30:12 +08:00
    @kindjeff 现在针对 Ajax , SPA 程序的专门 SEO 优化的项目大把。 Google 默认好像就根本不需要优化就可以爬 AngularJS 等。
    vmebeh
        52
    vmebeh  
       2015-11-12 16:31:21 +08:00 via Android
    主页用 js 跳转一下
    flowfire
        53
    flowfire  
       2015-11-12 16:46:35 +08:00
    除了 ban ip 之外,其他的都是防君子不防小人的做法。
    伪装 UA 又不是什么很难的事
    fengyqf
        54
    fengyqf  
       2015-11-12 18:05:03 +08:00
    @Shunix 圈子太小,逃走。。。
    ericls
        55
    ericls  
       2015-11-13 01:22:56 +08:00
    放到 tor 里
    lenovo
        56
    lenovo  
       2015-11-14 00:55:50 +08:00
    昨天把 36l 的.htaccess 换成这样貌似也可以阻止爬虫, Serf 是 pagespeed 的 UA

    Options -Indexes

    SetEnvIf User-Agent "^Mozilla" good_UA
    SetEnvIf User-Agent "^Serf" good_UA

    <Limit GET HEAD POST>
    order deny,allow
    allow from env=good_UA
    deny from all
    </Limit>
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1377 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 16:37 PVG 00:37 LAX 08:37 JFK 11:37
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86