有豆瓣的同事吗?想请教下豆瓣的反爬策略 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Wa
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
awolfly9
V2EX    Python

有豆瓣的同事吗?想请教下豆瓣的反爬策略

  •  
  •   awolfly9 2017-02-17 10:48:59 +08:00 15438 次点击
    这是一个创建于 3229 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,能否有人剖析下豆瓣的反爬策略

    第 1 条附言    2017-02-17 12:29:57 +08:00
    评论区炸锅了。。。
    第 2 条附言    2017-02-17 12:31:59 +08:00

    我的 IP 应该被加入了豆瓣的黑名单。

    检测到有异常请求从你的 IP 发出,请 登录 使用豆瓣。

    第 3 条附言    2017-02-17 12:39:44 +08:00
    我不是豆瓣员工,标题输入有误。

    我是写了一个代理 IP 工具目前用豆瓣做测试,结果把我自己的原始 IP 封了。
    25 条回复    2017-02-20 11:15:35 +08:00
    knightdf
        1
    knightdf  
       2017-02-17 11:04:15 +08:00
    这能告诉你?
    gimp
        2
    gimp  
       2017-02-17 11:05:44 +08:00
    买海量代理可解决绝大部分反爬问题
    linbiaye
        3
    < href="/member/linbiaye" class="dark">linbiaye  
       2017-02-17 11:06:33 +08:00
    这是要人吃豆瓣的饭砸豆瓣的锅。
    murmur
        4
    murmur  
       2017-02-17 11:07:53 +08:00
    兄弟这不厚道啊
    wangyifei6817
        5
    wangyifei6817  
       2017-02-17 11:10:40 +08:00
    有法院的同事吗?想请教下现行法律有什么漏洞
    xidianlz
        6
    xidianlz  
       2017-02-17 11:16:58 +08:00
    有福彩中心的同事吗?想请教下下一期中奖号码是多少
    quietcoder
        7
    quietcoder  
       2017-02-17 11:20:57 +08:00
    有监狱的同事吗?想请教一下怎么越狱
    jixiangqd
        8
    jixiangqd  
       2017-02-17 11:54:46 +08:00
    @wangyifei6817
    @xidianlz
    @quietcoder
    都好 6 ,哈哈哈哈
    HGladIator
        9
    HGladIator  
       2017-02-17 11:58:18 +08:00 via iPhone
    有钻石矿井的同事吗?想请教一下怎么哪点儿回家
    expkzb
        10
    expkzb  
       2017-02-17 12:06:33 +08:00
    看标题,楼主应该在豆瓣工作
    phrack
        11
    phrack  
       2017-02-17 12:10:26 +08:00 via Android
    @expkzb 很明显不是
    expkzb
        12
    expkzb  
       2017-02-17 12:13:12 +08:00
    @phrack 所以为什么是“同事”呢?
    yopming
        13
    yopming  
       2017-02-17 12:16:29 +08:00
    我觉得楼主是也要建立反爬机制吧
    lhbc
        14
    lhbc  
       2017-02-17 12:17:24 +08:00 via iPhone
    有银行的同事吗?我想请教下小型机的和审计系统的 root 密码。
    engHacker
        15
    engHacker  
       2017-02-17 12:18:24 +08:00 via iPhone
    @expkzb 楼主语文自学的
    Famio
        16
    Famio  
       2017-02-17 12:22:08 +08:00
    我知道有一个人知道,而且这个人开发了收集豆瓣小组里妹子福利图片的 app ……
    ywgx
        17
    ywgx  
       2017-02-17 12:25:50 +08:00
    入职豆瓣,加白名单自己的 IP
    sunchen
        18
    sunchen  
       2017-02-17 12:28:35 +08:00
    没什么反爬啊
    lhbc
        19
    lhbc  
       2017-02-17 12:33:42 +08:00 via iPhone
    @expkzb 如果楼主是豆瓣员工,在公共论坛讨论公司机密。最轻最轻的处罚应该是开除,如果造成信息安全事故,可能还得承担民事或者刑事责任。
    如果楼主不是豆瓣员工,那一定是伸手惯犯。
    julypanda
        20
    julypanda  
       2017-02-17 12:37:29 +08:00
    @yopming 或者是反-反爬机制
    em70
        21
    em70  
       2017-02-17 12:44:00 +08:00 via Android
    豆瓣防盗链就是按频率的,白天一分钟超过 40 次就出验证码,晚上放宽到 60
    okboom
        22
    okboom  
       2017-02-17 13:43:10 +08:00
    代理就能解决,邪恶点用 tor 就可以( □ )
    wmttom
        23
    wmttom  
       2017-02-17 14:15:39 +08:00 via iPhone
    以前做过的豆瓣抓取是,伪装真实浏览器 cookie ,每个 cookie 每分钟请求几十次,高频率容易被封 ip ,保持出验证码的低频多代理。然后出验证码都是英语单词,简单处理下背景,找个 OCR 接口一调,再做下单词纠错,自动提交验证码继续抓。
    xrlin
        24
    xrlin  
       2017-02-18 23:04:11 +08:00
    我的 ip 也被拉黑了,今天用 pyspider 爬取一些豆瓣的一些信息拿来练习下数据分析つ
    IanPeverell
        25
    IanPeverell  
       2017-02-20 11:15:35 +08:00 via iPhone
    可能会根据你的请求频率,短时间内请求数量,以及请求间隔是否有规律
    所以我的想法是多代理,设随机不少于一定数值的延迟
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2472 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 15:21 PVG 23:21 LAX 07:21 JFK 10:21
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86