为防采集，目前有哪些 js 检测 headless 浏览器的方法？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2619 天前的主题，其中的信息可能已经有所发展或是发生改变。

后端防采集感觉已经不行了，稍微猛一点会把可爱的搜索引擎爬虫误伤了，准备采用前端 js 生成 token 后端验证来防采集，现在就是想把所有的 headless 浏览器给 ban 掉，有没有最全的方法检测 headless 浏览器的特征？

headless

浏览器

采集

token

13 条回复 2018-11-27 22:49:47 +08:00

photon006

2018 年 11 月 27 日

用户行为分析？
找一些 headless 特征作为样本，训练一个神经网络来识别？

linhua

2018 年 11 月 27 日

IT IS *NOT* POSSIBLE TO DETECT AND BLOCK CHROME HEADLESS
https://intoli.com/blog/not-possible-to-block-chrome-headless/

orangeChar

2018 年 11 月 27 日

我现在正在用 webdriver 操控 ie 浏览器写脚本这个不是 Headless 奥怎么防验证码接入打码平台滑动验证码都能解决怎么防老铁 ?

glacer

2018 年 11 月 27 日

不存在完美的反爬虫措施，只要爬虫想绕过反爬必然是有办法的。
简单的反 headless 爬虫，以 puppeteer 为例，可设置检查 navigator.webdriver 值

glacer

2018 年 11 月 27 日

@glacer 更靠谱的还是埋点做行为分析

luozic

2018 年 11 月 27 日 via iPhone

行为分析，哪有人每个链接都看的，还是更新了就天天看

des

2018 年 11 月 27 日 via Android

收集 vps 网段，全封了

meso5533

2018 年 11 月 27 日 via Android

去观察常见的 headless 的 navigator 和 window 对象的属性，是有一些特征的

orcusfox

2018 年 11 月 27 日 via iPhone

想问一下 headless 浏览器是除了渲染页面以外都可以做吗？之前有见过在 js 里面设置 Cookie，这样可以隔绝掉没有执行能力和没有 CookieStore 的客户端。

agagega

2018 年 11 月 27 日

@napsterwu 应该是也能渲染的，我还见过用 headless 浏览器渲染页面截图用来做前端测试的

sunchen

2018 年 11 月 27 日

点评和美团的网站下边都有一个 xohr.js 的文件，你看看能了解到一部分

nonoroazoro

2018 年 11 月 27 日

只要 headless 做的足够完善，想要在内部检测理论上不可能。

Sparetire

2018 年 11 月 27 日

如楼上所说理论上是不可能, 不过正巧前几天也有这个需求, 搜集了些写了个库 https://github.com/ta7sudan/secan, 对付小白应该够用