为防采集,目前有哪些 js 检测 headless 浏览器的方法? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
alwayshere
V2EX    程序员

为防采集,目前有哪些 js 检测 headless 浏览器的方法?

  •  
  •   alwayshere 2018 年 11 月 27 日 5370 次点击
    这是一个创建于 2619 天前的主题,其中的信息可能已经有所发展或是发生改变。

    后端防采集感觉已经不行了,稍微猛一点会把可爱的搜索引擎爬虫误伤了,准备采用前端 js 生成 token 后端验证来防采集,现在就是想把所有的 headless 浏览器给 ban 掉,有没有最全的方法检测 headless 浏览器的特征?

    13 条回复    2018-11-27 22:49:47 +08:00
    photon006
        1
    photon006  
       2018 年 11 月 27 日
    用户行为分析?
    找一些 headless 特征作为样本,训练一个神经网络来识别?
    linhua
        2
    linhua  
       2018 年 11 月 27 日   2
    IT IS *NOT* POSSIBLE TO DETECT AND BLOCK CHROME HEADLESS
    https://intoli.com/blog/not-possible-to-block-chrome-headless/
    orangeChar
        3
    orangeChar  
       2018 年 11 月 27 日
    我现在正在用 webdriver 操控 ie 浏览器写脚本 这个不是 Headless 奥 怎么防 验证码接入打码平台 滑动验证码都能解决 怎么防 老铁 ?
    glacer
        4
    glacer  
       2018 年 11 月 27 日
    不存在完美的反爬虫措施,只要爬虫想绕过反爬必然是有办法的。
    简单的反 headless 爬虫,以 puppeteer 为例,可设置检查 navigator.webdriver 值
    glacer
        5
    glacer  
       2018 年 11 月 27 日
    @glacer 更靠谱的还是埋点做行为分析
    luozic
        6
    luozic  
       2018 年 11 月 27 日 via iPhone   1
    行为分析,哪有人每个链接都看的,还是更新了就天天看
    des
        7
    des  
       2018 年 11 月 27 日 via Android
    收集 vps 网段,全封了
    meso5533
        8
    meso5533  
       2018 年 11 月 27 日 via Android
    去观察常见的 headless 的 navigator 和 window 对象的属性,是有一些特征的
    orcusfox
        9
    orcusfox  
       2018 年 11 月 27 日 via iPhone
    想问一下 headless 浏览器是除了渲染页面以外都可以做吗?之前有见过在 js 里面设置 Cookie,这样可以隔绝掉没有执行能力和没有 CookieStore 的客户端。
    agagega
        10
    agagega  
       2018 年 11 月 27 日
    @napsterwu 应该是也能渲染的,我还见过用 headless 浏览器渲染页面截图用来做前端测试的
    sunchen
        11
    sunchen  
       2018 年 11 月 27 日
    点评和美团的网站下边都有一个 xohr.js 的文件,你看看能了解到一部分
    nonoroazoro
        12
    nonoroazoro  
       2018 年 11 月 27 日
    只要 headless 做的足够完善,想要在内部检测理论上不可能。
    Sparetire
        13
    Sparetire  
       2018 年 11 月 27 日
    如楼上所说理论上是不可能, 不过正巧前几天也有这个需求, 搜集了些写了个库 https://github.com/ta7sudan/secan, 对付小白应该够用
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2830 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 15:07 PVG 23:07 LAX 07:07 JFK 10:07
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86