手把手教你写煎蛋妹子图爬虫。。。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
jason52

手把手教你写煎蛋妹子图爬虫。。。

  •  
  •   jason52 Feb 16, 2015 24291 views
    This topic created in 4088 days ago, the information mentioned may be changed or developed.
    缘起
    ====

    爬虫从妹子图练起最好了,煎蛋防护系统比较弱,你要一开始上手大众点评,豆瓣,那好了,先上淘宝买代理吧。。。。

    而且这个例子好好啊,可以直接从正则表达式匹配技术讲起,在用bs,再到pyquery。。。。

    顺带讲讲fiddler,firebug之类的。。。

    @jookr 大叔 @ 你了!!!
    ===

    第一次录screencast,真是巨麻烦。而且质量还不高。。演练没到位。。。

    destroy all software能在15分钟左右制作出质量这么高的视频真心不容易,自己做一次就知道了。

    视频链接: http://pan.baidu.com/s/1i3mXwBN

    效果链接: http://v2ex.com/t/171077
    这是无聊图的,妹子图现在都很黄很暴力了,不和谐~~
    41 replies    2016-08-26 11:59:36 +08:00
    kungfuchicken
        1
    kungfuchicken  
       Feb 16, 2015
    煎蛋防护比较弱...
    zqjilove
        2
    zqjilove  
       Feb 16, 2015
    近期正好想了解python爬虫。看了视频,有些收获。谢了
    jason52
        3
    jason52  
    OP
       Feb 16, 2015
    @zqjilove 欢迎提问,我觉得后面讲的有点快了,有网上教人画马那个梗的感觉,是个圈圈画好,下一步,直接就是一匹栩栩如生的马出来了。

    不过有没法讲的太详细,必须假设有一定的html基础和python基础。边界的确定有点麻烦。。。

    另外,在制作过程后期压制视频的时候,(之前没弄过),真心体会到 码率叫你做人这句话。第一个版本压制出来3G多。经过我多次试验,已经找到比较合适的参数,可以在20min下90m以内,比这个版本更加清晰,比较适合screencast。

    另外视频托管,优酷土豆之类都嫌贫爱富,上传上去转压的一塌糊涂,还是直接发布视频文件最为清晰。

    同时不知道斗鱼用了什么黑科技,竟然这么清晰。。。烧钱吧
    jimmy66
        4
    jimmy66  
       Feb 16, 2015
    虽然之前看过这个了http://blog.fishc.com/3646.html,但是还是要感谢了
    Sylv
        5
    Sylv  
       Feb 16, 2015 via iPhone
    @kungfuchicken 看这头像应该是 @colt ?呵,lz 小心 @colt 封你 ip,你就没妹子图看了。
    jason52
        6
    jason52  
    OP
       Feb 16, 2015
    @Sylv 还没上多线程呢~~~哈哈
    jookr
        7
    jookr  
       Feb 16, 2015
    谢了 谢了
    caixiexin
        8
    caixiexin  
       Feb 16, 2015
    看到好多人写爬虫第一个作品就是爬煎蛋23333
    SquirrelMAN
        9
    SquirrelMAN  
       Feb 16, 2015
    说话中气不足啊,要多运动了。。

    视频内容不错,有帮助
    jason52
        10
    jason52  
    OP
       Feb 16, 2015
    @SquirrelMAN 大概早上debug妹子图时间长了()~~~所以拿无聊图来演示~~
    doomgiant
        11
    doomgiant  
       Feb 16, 2015
    非常感谢,mark回去看!
    reticentfat
        12
    strong>reticentfat  
       Feb 16, 2015
    谢谢,下班回家练练
    xiaket
        13
    xiaket  
       Feb 16, 2015
    看了两三分钟后觉得用Linux下的工具抓会更方便, 于是又花几分钟测试写脚本, 在第八分钟前就能跑了...

    新人入手玩爬虫还是入Linux的坑更合适, curl/sed/awk做这个事情比pyquery方便太多了, 而且方便多进程提高效率. 顺便慰问下在Windows下开发的同学们, 你们真是辛苦了...
    zhangchioulin
        14
    zhangchioulin  
       Feb 16, 2015
    有空就把视频看了,谢谢
    66beta
        15
    66beta  
       Feb 16, 2015
    煎蛋把全文RSS给关了,楼主有兴趣做一个不?
    ZHenJ
        16
    ZHenJ  
       Feb 16, 2015
    应该加个帅选,只要NSFW的(跑
    ETiV
        17
    ETiV  
       Feb 16, 2015 via iPhone
    我只想知道淘宝上卖代理的关键词是啥
    Earthman
        18
    Earthman  
       Feb 16, 2015 via Android
    楼主试试传bilibili,可以直传,免二压
    mozutaba
        19
    mozutaba  
       Feb 16, 2015
    难道不是先抓1024?
    jason52
        20
    jason52  
    OP
       Feb 16, 2015
    @ETiV 我一直以为他不是独立托管的。。。没有邀请码呀~~
    @xiaket 简单的是shell方便,要带cookie,代理起来就麻烦一点了。而且正则表达式技术完全是对字符串的解析嘛~~~库还是要用用的。。import 在手,天下我有耶shahua(`^)
    @mozutaba 出门左转hard--seed走起 O(∩_∩)O哈哈~
    @kungfuchicken 站长你好~~摸摸头~~~站长不要改版~~~放新人一条生路~~~阿门~~~
    @66beta 雅虎不有个管道啥的。。。专门搞这个~~~
    lightryanking
        21
    lightryanking  
       Feb 16, 2015
    = =你们玩的太高级了。。。不会python啊
    以前火车头采过1024
    Twinkle
        22
    Twinkle  
       Feb 16, 2015
    写的第一个爬虫也是爬妹子图,可谓动力十足 >.>
    aaaa007cn
        23
    aaaa007cn  
       Feb 17, 2015
    @jason52
    我觉得简单的用用 urllib、urllib2 差不多
    要是 cookie、referer、ua、代理一起上
    我宁可在 python 中调用 curl 也不想和各种 opener 去搅
    直到遇到了 requests
    但是 curl 直接支持 socks 代理在某些情况下还是要比 python 方便点
    gyorou
        24
    gyorou  
       Feb 17, 2015
    http://blog.nigbee.pink:3000/ 这个行么。

    打开前先确定周围没人特么。
    url
        25
    url  
       Feb 17, 2015 via Android
    @gyorou 你好厉害
    yepinf
        26
    yepinf  
       Feb 18, 2015
    “先上淘宝买代理吧。。。。” 求个靠谱链接
    jimmy66
        27
    jimmy66  
       Feb 20, 2015
    re.findall 返回的是list不是元组。。原谅我的强迫症吧
    jason52
        28
    jason52  
    OP
       Feb 20, 2015
    @jimmy66 对对对,偶想当然了~~~
    Delbert
        29
    Delbert  
       Feb 26, 2015
    你视频里面是 cat pic |sed 's/"/\n/g'| grep 'http.*(gif|jpg)'
    但是我需要改成 cat pic |sed 's/"/\n/g'| grep 'http.*[gif|jpg]'
    才可以正常正则筛选。
    是我和你grep的版本不同吗?
    wind3110991
        30
    wind3110991  
       Apr 1, 2015
    mark下先~
    mingyun
        31
    mingyun  
       Apr 5, 2015
    @gyorou 就等你了,哈哈
    ivanchou
        32
    ivanchou  
       Apr 21, 2015
    百度云链接失效了?
    plantparknet
        33
    plantparknet  
       Jul 12, 2015
    现在这种方法失效了,必须要用header~~
    plantparknet
        34
    plantparknet  
       Jul 12, 2015
    jandan增加反爬虫了。。。
    jason52
        35
    jason52  
    OP
       Jul 12, 2015 via Android
    @plantparknet 大概练手的家伙太多了。。。
    plantparknet
        36
    plantparknet  
       Jul 12, 2015
    @jason52 终于有机会需要把教程更新下啦~~
    jason52
        37
    jason52  
    OP
       Jul 12, 2015 via Android
    @plantparknet 最近忙成狗,应该暂时不更新啦~~~不过要加个header你可以仿照后面几课试试。~~~
    Want
        38
    Want  
       Aug 15, 2016
    你的视频链接掉了

    快点更新啊
    ibiner
        39
    ibiner  
       Aug 16, 2016
    不错。
    1 呢?
    kela
        40
    kela  
       Aug 16, 2016 via Android
    求视频
    Dye8
        41
    Dye8  
       Aug 26, 2016 via Android
    视频链接挂了
    About     Help     Advertise     Blog     API     FAQ     Solana     952 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 97ms UTC 20:54 PVG 04:54 LAX 13:54 JFK 16:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86