为什么总有人扫我的网站,难道我动了谁的奶酪? - V2EX
请不要在回答技术问题时复制粘贴 AI 生成的内容
tianshiyeben

为什么总有人扫我的网站,难道我动了谁的奶酪?

  •  
  •   tianshiyeben
    tianshiyeben May 19, 2020 6599 views
    This topic created in 2189 days ago, the information mentioned may be changed or developed.

    在 nginx 日志里,经常有奇怪的 404,还有假蜘蛛。

    烦。

    Supplement 1    May 19, 2020
    本身是自己的 https://github.com/tianshiyeben/wgcloud
    为了方便下载挂了网站。
    刚看了下,每天就几百 ip,一半是爬虫,心累
    Supplement 2    May 19, 2020
    嗯嗯,听你们说,才知道有些流量是爬虫带来的。
    好像直播也有这种操作
    Supplement 3    May 19, 2020
    嗯,听大家说完,好像都这样,没什么,谢谢了
    Supplement 4    May 19, 2020
    有 v2er 问我是做的什么东西,这就是普通的监控系统,只不过是开源了,没有赚过钱,有好心人下载我开发文档给个零花钱,基本是倒贴状态。
    各位大侠看过,觉得不错,雁过留声,给个 star 哈
    https://github.com/tianshiyeben/wgcloud
    33 replies    2020-05-20 09:20:27 +08:00
    devtk
        1
    devtk  
       May 19, 2020
    动了别人奶酪应该就直接 DDoS 你了 = =
    crella
        2
    crella  
       May 19, 2020 via Android
    前段时间做了个爬虫,把展示页面放在公网服务器上。我在别的论坛发贴分享这个链接,被删了帖,于是我估计除了我就还有湖北某市的一个访问者……

    然后有几晚,puma 显示很多 malformed request 还有对各种不存在的路径的请求,搜了一下是 nmap 的扫描行为,某些 ip 是国家队。
    wanguorui123
        3
    wanguorui123  
       May 19, 2020 via iPhone
    每天收到大量请求,全部被自动封锁了
    kumasama
        4
    kumasama  
       May 19, 2020
    不是可以查出来谁扫你吗?
    zarte
        5
    zarte  
       May 19, 2020
    扫网站拿肉鸡不很正常么?
    ifxo
        6
    ifxo  
       May 19, 2020
    都是 ai 扫的,你是躺枪了
    Cmdhelp
        7
    Cmdhelp  
       May 19, 2020
    aliyun,tengxunyun,国外的安全网站,黑客,都是大批量扫描,,,不过幸好还有点道德,rm -rf /tmp,都是这种命令传进来
    tianshiyeben
        8
    tianshiyeben  
    OP
       May 19, 2020
    @crella 嗯,我也类似,只是我没仔细留意过是什么人在搞
    tianshiyeben
        9
    tianshiyeben  
    OP
       May 19, 2020
    @Cmdhelp rm 都有,汗
    tianshiyeben
        10
    tianshiyeben  
    OP
       May 19, 2020
    @kumasama 我也不太懂,我这还是监控系统,哈哈
    tianshiyeben
        11
    tianshiyeben  
    OP
       May 19, 2020
    @wanguorui123 用什么能自动封锁啊。我就批了一层 cf
    ArtIsPatrick
        12
    ArtIsPatrick  
       May 19, 2020 via iPhone
    我扫的,不错
    tianshiyeben
        13
    tianshiyeben  
    OP
       May 19, 2020
    @ifxo 我看了两边,都看成 a v 了
    tianshiyeben
        14
    tianshiyeben  
    OP
       May 19, 2020
    tianshiyeben
        15
    tianshiyeben  
    OP
       May 19, 2020
    @kios 我这就开源项目
    cT4035xGkTUJ0Ce7
        16
    cT4035xGkTUJ0Ce7  
       May 19, 2020 via Android
    你的网站就是奶酪
    tankren
        17
    tankren  
       May 19, 2020
    不是 bat 就是 bot 想多了
    opengps
        18
    opengps  
       May 19, 2020   1
    都是自动探寻漏洞的,公网环境这种情况太常见了
    xuanbg
        19
    xuanbg  
       May 19, 2020   1
    太正常不过了,从我司的日志看,至少有 30%的访问量来自各种爬虫、蜘蛛、攻击脚本。有统计说互联网的流量有 60%以上是爬虫,这样看来我司网站还在水准之下。哈哈哈,这就没事了,安心睡觉。
    ajaxfunction
        20
    ajaxfunction  
       May 19, 2020   1
    我维护的一个二手房网站,正常用户 pv 一天也就是 3000 左右,

    但是各家 bot 就和疯了一样,光每天生成的 nginx 日志文件就接近 100MB 了, 无时无刻不在爬数据,也不注意频率,搞的我经常宕机,更可恶的是把我 cdn 流量都消耗不少,无解
    heiheidewo
        21
    heiheidewo  
       May 19, 2020   1
    5M 的带宽,有 4.9M 都是被爬虫消耗了
    aloxaf
        22
    aloxaf  
       May 19, 2020   1
    瞅了一下我的一个人网站,明面上的爬虫流量大概有 50%,不过所有的异常流量加起来有 70% 了,看来达到了平均水准了 2333

    @ajaxfunction 大公司的 bot 应该都遵守 robots 协议的吧,不想让它爬就禁止
    JackYao
        23
    JackYao  
       May 19, 2020   1
    不用想了- - 大部分都是 ai 扫的
    我自家 nas 架在了公网, 天天被人干。。
    ajaxfunction
        24
    ajaxfunction  
       May 19, 2020
    @aloxaf 其实早就设置了 所有爬虫禁止访问,
    但实际上这种资源类网站 和瓜子优信车源类似, 盯着的人太多了,上到竞争对手,下到第三方卖行业软件的众多小公司都在互相采集,毕竟信息就是真金白银
    inktiger
        25
    inktiger  
       May 19, 2020
    动奶酪你是网站都得崩咯,爬虫遍历互联网都是
    superrichman
    26
    superrichman  
       May 19, 2020 via iPhone
    爬虫太正常了,不喜欢就配置一下全部拒绝掉
    programmerM
        27
    programmerM  
       May 19, 2020
    我的个人博客每天 50% 以上的请求都是爬虫,其中 AhrefsBot 的请求最多。我的爬虫请求统计 https://www.misterma.com/data.html
    Soar360
        28
    Soar360  
       May 19, 2020
    我的个人博客,连爬虫都不愿意光顾。
    https://www.coderbusy.com/
    bojue
        29
    bojue  
       May 19, 2020
    @aloxaf bot 听说有人越界,不知道真假,国内环境没有相关的处罚
    tianshiyeben
        30
    tianshiyeben  
    OP
       May 19, 2020 via Android
    @superrichman 我不会配置,不管了
    coderabbit
        31
    coderabbit  
       May 20, 2020 via Android
    sunwq
        32
    sunwq  
       May 20, 2020
    挂点广告
    tianshiyeben
        33
    tianshiyeben  
    OP
       May 20, 2020
    @sunwq 不了。也没多少人访问。
    About     Help     Advertise     Blog     API     FAQ     Solana     3094 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 91ms UTC 08:47 PVG 16:47 LAX 01:47 JFK 04:47
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86