技术渣,谁给写个爬虫,感谢 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
onecode
V2EX    Python

技术渣,谁给写个爬虫,感谢

  •  
  •   onecode 2019-05-21 16:34:24 +08:00 18443 次点击
    这是一个创建于 2404 天前的主题,其中的信息可能已经有所发展或是发生改变。
    137 条回复    2019-06-19 17:22:49 +08:00
    1  2  
    niknik
        1
    niknik  
       2019-05-21 16:40:54 +08:00
    怎么说
    jtwor
        2
    jtwor  
       2019-05-21 16:42:14 +08:00
    https://www.cnblogs.com/fnng/p/3576154.html 看这个 我记得虫师还有个 Selenium 教程
    tabris17
        3
    tabris17  
       2019-05-21 16:43:11 +08:00   45
    如果谢谢有用的话,还要印钞厂干嘛
    alw
        4
    alw  
       2019-05-21 16:45:39 +08:00
    本人懒,谁给钱让我赖活着,感谢。
    (要爬什么不说,给什么回报不说,就只想别人帮忙,还得去问你:请问你需要解决什么问题?)
    onecode
        5
    onecode  
    OP
       2019-05-21 16:46:54 +08:00   3
    没人写,我自己写了啊
    wqzjk393
        6
    wqzjk393  
       2019-05-21 16:49:37 +08:00
    贴个 csdn 的。。我记得之前学异步协程时候拿来测试过,直接复制下来就能跑。。。( https://blog.csdn.net/ns2250225/article/details/78448955
    Ct5T66PVR1bW7b2z
        7
    Ct5T66PVR1bW7b2z  
       2019-05-21 16:49:46 +08:00 via Android
    不报个价,谁给你写
    AFuture
        8
    AFuture  
       2019-05-21 16:49:51 +08:00 via iPhone
    看到 5 楼的回复....楼主你倒是自己写啊
    MilkShake
        9
    MilkShake  
       2019-05-21 16:50:11 +08:00   1
    自己写吧,用不到太多的技术难点吧。
    onecode
        10
    onecode  
    OP
       2019-05-21 16:52:23 +08:00
    @AFuture 上班不能写,下班回去写,公司监控访问的网址
    vinew
        11
    vinew  
       2019-05-21 16:59:32 +08:00 via iPhone
    响应数据看着像 json,可以考虑用 shell 爬,然后用 jq 命令处理 json
    Immortal
        12
    Immortal  
       2019-05-21 17:00:54 +08:00   30
    看到 5l 有点想笑
    "你们不赶紧抢着写,要被我自己写了!"
    cuebyte
        13
    cuebyte  
       2019-05-21 17:01:09 +08:00
    我你
    onecode
        14
    onecode  
    OP
       2019-05-21 17:01:56 +08:00   11
    为啥你们就不访问 url 看一下呢,伤心
    gjf
        15
    gjf  
       2019-05-21 17:04:42 +08:00 via Android
    这也简单了吧?
    lithiumii
        16
    lithiumii  
       2019-05-21 17:05:44 +08:00
    最近流行以爬虫的名义开车?
    Eytoyes
        17
    Eytoyes  
       2019-05-21 17:14:46 +08:00
    我怀疑你在开车,但我好像有证据
    cyssxt
        18
    cyssxt  
       2019-05-21 17:22:11 +08:00 via iPhone
    技术车
    ctro15547
        19
    ctro15547  
       2019-05-21 17:22:32 +08:00
    不用怀疑 我感觉你就是在开车 已经保留证据
    ttimasdf
        20
    ttimasdf  
       2019-05-21 17:22:37 +08:00
    NSFW.
    exceloo
        21
    exceloo  
       2019-05-21 17:24:21 +08:00
    艹,NSFW,能不开车吗?
    onecode
        22
    onecode  
    OP
       2019-05-21 17:24:43 +08:00
    简单的 uwp 程序已经写好,微软不给我上架,老是被拒,难过
    zdnyp
        23
    zdnyp  
       2019-05-21 17:25:19 +08:00
    铐起来
    zgcwkj
        24
    zgcwkj  
       2019-05-21 17:31:07 +08:00
    lepig
        25
    lepig  
       2019-05-21 17:34:26 +08:00
    @zgcwkj 我只想求结果。不想要源码 哈哈哈
    opengps
        26
    opengps  
       2019-05-21 17:34:40 +08:00
    妹子图?似乎是在开车。。。
    ben1024
        27
    ben1024  
       2019-05-21 17:34:52 +08:00
    开车?
    tikazyq
        28
    tikazyq  
       2019-05-21 17:36:07 +08:00
    请关注爬虫平台 Crawlab

    Github: tikazyq/crawlab
    kY8mbXW833Lu28xn
        29
    kY8mbXW833Lu28xn  
       2019-05-21 17:36:38 +08:00 via Android
    感谢楼主。
    registerrr
        30
    registerrr  
       2019-05-21 17:37:14 +08:00
    opengps
        31
    opengps  
       2019-05-21 17:38:00 +08:00
    ben1024
        32
    ben1024  
       2019-05-21 17:38:26 +08:00
    ```
    <?php
    $jsOns= file_get_contents('http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20');
    $json_arr = json_decode($jsons, true);
    foreach ($json_arr as $value) {
    file_put_contents($value['id'].'.jpg', file_get_contents($value['thumb_src']));
    }
    ```
    baicheng10
        33
    baicheng10  
       2019-05-21 17:39:55 +08:00   1
    还好吧,点开看了一个,标题看着像车,假车那种。
    MARK 一下,后面看搜集一点,说不定能用上呢。
    ben1024
        34
    ben1024  
       2019-05-21 17:44:58 +08:00
    zgcwkj
        35
    zgcwkj  
       2019-05-21 17:49:23 +08:00
    @lepig 额,就是结果,win 程序,不用 python 环境的那种
    wq2016
        36
    wq2016  
       2019-05-21 17:54:07 +08:00
    重新学也就 20 分钟,还跑来发个帖
    whitehack
        37
    whitehack  
       2019-05-21 17:54:37 +08:00
    开车吗?。。。。那我开个飞机吧 https://737max.tk
    deepdark
        38
    deepdark  
       2019-05-21 17:56:54 +08:00 via Android   1
    我怀疑你在开车,而且我有证据
    zhtttyecho
        39
    zhtttyecho  
       2019-05-21 17:57:56 +08:00
    偷偷收藏一下,应该没人发现吧
    sheeta
        40
    sheeta  
       2019-05-21 18:00:40 +08:00
    我怀疑你在开车,证据已经保存下来了
    foxyier
        41
    foxyier  
       2019-05-21 18:00:43 +08:00
    刚从旁边的车下来, 怎么稀里糊涂又上了另一辆
    brust
        42
    brust  
       2019-05-21 18:01:34 +08:00
    CEBBCAT
        43
    CEBBCAT  
       2019-05-21 18:06:32 +08:00 via Android
    V2 转型煎蛋,下一帖就是 XX 女装
    HFX3389
        44
    HFX3389  
       2019-05-21 18:08:05 +08:00
    你好骚啊!
    R18
        45
    R18  
       2019-05-21 18:08:55 +08:00 via Android
    兄弟你的口味真独特
    996icu
        46
    996icu  
       2019-05-21 18:10:44 +08:00
    我怀疑你在开车
    miniwade514
        47
    miniwade514  
       2019-05-21 18:13:47 +08:00
    楼主搞好了能否贴个 github 地址,纯学习
    Norie
        48
    Norie  
       2019-05-21 18:59:38 +08:00 via Android
    实锤开车
    yearliny
        49
    yearliny  
       2019-05-21 19:00:49 +08:00
    这么良好的格式要什么爬虫,PowerShell 就搞定了。
    ```powershell
    $json=Invoke-WebRequest "http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20" -Method Get | ConvertFrom-Json
    $wc = New-Object System.Net.WebClient
    foreach ($i in $json) {
    $wc.DownloadFile($i.thumb_src, $json[0].thumb_src.LastIndexOf("/") + 1)
    }
    ```
    TMaize
        50
    TMaize  
       2019-05-21 19:10:00 +08:00 via Android
    之前爬过,我有全站的数据
    jsnjfz
        51
    jsnjfz  
       2019-05-21 19:14:36 +08:00
    meizitu 的爬虫在 github 上搜下应该有
    dabaibai
        52
    dabaibai  
       2019-05-21 19:16:33 +08:00
    你头像 能快速写出爬虫啊..
    golang 真香
    ddzy
        53
    ddzy  
       2019-05-21 19:17:00 +08:00
    都误会楼主了, 慢点, 晕车
    renmu123
        54
    renmu123  
       2019-05-21 19:23:32 +08:00 via Android
    我网盘还有这网站 10g 的资源
    zoyopo
        55
    zoyopo  
       2019-05-21 19:24:24 +08:00
    orz
    YAHIKO0
        56
    YAHIKO0  
       2019-05-21 19:30:32 +08:00
    妹子图不是早就没有了吗
    javen73
        57
    javen73  
       2019-05-21 19:30:48 +08:00
    ???我怀疑你再开车,但我没有证据
    luckyjack
        58
    luckyjack  
       2019-05-21 19:31:11 +08:00
    花式开车
    RLinux
        59
    RLinux  
       2019-05-21 19:32:55 +08:00
    这个都这么多人回复 为啥我的没人理的~~~
    baiducom
        60
    baiducom  
       2019-05-21 19:32:57 +08:00 via Android
    咳咳咳 好吧(  ̄д ̄;)ノ
    Constellation39
        61
    Constellation39  
       2019-05-21 19:42:12 +08:00
    疑车有据
    0x4F5DA2
        62
    0x4F5DA2  
       2019-05-21 19:47:42 +08:00
    我怀疑你在搞黄色,我好像也有证据
    iwishing
        63
    iwishing  
       2019-05-21 20:03:55 +08:00
    @yearliny
    改了一下你的
    $json=Invoke-WebRequest "http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20" -Method Get -UseBasicParsing| ConvertFrom-Json
    $wc = New-Object System.Net.WebClient
    foreach ($i in $json) {
    $output = split-path -Leaf $i.thumb_src
    $wc.DownloadFile($i.thumb_src,$output)
    }
    zackwu
        64
    zackwu  
       2019-05-21 20:08:34 +08:00
    你这个是假车,我这有辆真车: https://paste.ubuntu.com/p/2nxbtRtqFX/

    用法自寻(逃
    Atukey
        65
    Atukey  
       2019-05-21 20:11:44 +08:00
    极速车
    Shiyq
        66
    Shiyq  
       2019-05-21 20:19:20 +08:00   2
    没意思(我好了)
    claysec
        67
    claysec  
       2019-05-21 20:27:45 +08:00 via iPhone
    空手套白狼?(滑稽)
    zzh1224
        68
    zzh1224  
       2019-05-21 20:31:24 +08:00
    你的开车技术真的一流
    bld2018
        69
    bld2018  
       2019-05-21 21:08:14 +08:00
    不是有成品发布过吗?
    canwex
        70
    canwex  
       2019-05-21 21:41:57 +08:00
    import requests
    import json

    url = 'https://adr.meizitu.net/wp-json/wp/v2/posts?page={}&per_page={}'
    per_page = 100
    page = 52

    print('##### spider start #####')
    while True:
    page += 1
    json_data = requests.get(url.format(page, per_page))
    data = json.loads(json_data.text)

    if not isinstance(data, list):
    print('##### spider end #####')
    break

    for item in data:
    thumb_src = item['thumb_src']
    title = item['title'] + '.jpg'
    print('[+] downloading {} ...'.format(title))
    meizi = requests.get(thumb_src)
    if meizi.status_code == 200:
    with open(title, 'wb') as f:
    f.write(meizi.content)
    fuchunliu
        71
    fuchunliu  
       2019-05-21 21:58:17 +08:00 via Android
    @keith1126 拿来就可以开,不用加油嘛
    zzzzzzzzzp
        72
    zzzzzzzzzp  
       2019-05-21 22:21:52 +08:00
    [{"id":181372,"title":"辣妹温心怡情趣内衣 SM 诱惑 丰胸美臀身材热辣销魂","img_num":46,"thumb_src":"https:\/\/i2.meizitu.net\/2019\/04\/23a25.jpg","thumb_src_min":"https:\/\/i2.meizitu.net\/thumbs\/2019\/05\/181372_23a25_236.jpg"},{"id":180743,"title":"大胸女神恩一雪白玉兔诱人呈现 手捧巨乳再掀性感狂潮".....
    wpzero
        73
    wpzero  
       2019-05-21 22:34:04 +08:00 via iPhone
    calebx
        74
    calebx  
       2019-05-21 22:34:46 +08:00
    早说吗!
    tt0411
        75
    tt0411  
       2019-05-21 22:47:56 +08:00
    要啥爬虫, 一行命令的事情

    curl -s http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20 | jq -r '.[] | .thumb_src' | xags -IX curl -s -O X
    azh7138m
        76
    azh7138m  
       2019-05-21 22:52:49 +08:00 via Android
    @niknik 好人一生平安?(
    harvies
        77
    harvies  
       2019-05-21 23:34:03 +08:00
    import json
    import os

    import requests

    if __name__ == '__main__':
    flag = True
    page = 1
    while flag:
    print("page:" + str(page))
    list_html = requests.get("http://adr.meizitu.net/wp-json/wp/v2/posts?page=" + str(page) + "&per_page=20")
    cOntent= list_html.content
    json_loads = json.loads(content)
    if isinstance(json_loads, list):
    print(json_loads)
    for list_item in json_loads:
    id_ = list_item['id']
    title = list_item['title']
    print(title)
    detail_html = requests.get("http://adr.meizitu.net/wp-json/wp/v2/i?id=" + str(id_))
    detail_json = json.loads(detail_html.content)
    print(detail_json)
    str_content_ = detail_json['content']
    content__split = str_content_.split(',')
    print('downloading ' + str(content__split))
    for detail_item in content__split:
    print(detail_item)
    rfind = detail_item.rfind('/')
    file_name = detail_item[rfind + 1:len(detail_item)]
    folder_path = "./images/" + title + '/'
    if not os.path.exists(folder_path):
    os.makedirs(folder_path)
    requests_get = requests.get(detail_item)
    with open(folder_path + file_name, "wb") as f:
    f.write(requests_get.content)
    else:
    code_ = json_loads['code']
    if code_ != 'rest_post_invalid_page_number':
    print(code_)
    else:
    print(code_ + " exit")
    flag = False
    page += 1
    lrigi
        78
    lrigi  
       2019-05-21 23:37:20 +08:00 via iPhone
    @tt0411 ios 捷径也可以的
    xiaobai987
        79
    xiaobai987  
       2019-05-21 23:40:01 +08:00
    图片地址都好爬 关键是 怎么样把地址全部快速爬下来 网站反爬很坑爹
    A1321A
        80
    A1321A  
       2019-05-22 00:00:25 +08:00
    车个屁,你们这也配叫车?笑出前列腺液....https://github.com/94se/94se---/wiki
    linvaux
        81
    linvaux  
       2019-05-22 00:23:08 +08:00 via Android
    果然特么十个爬虫九个都是妹子图
    qinghon
        82
    qinghon  
       2019-05-22 00:28:41 +08:00 via Android
    #80
    is or contains sexually obscene content
    举报了
    ningfeng
        83
    ningfeng  
       2019-05-22 00:31:33 +08:00 via Android
    确实不能算车,meizitu 连点都不漏,婴儿车吗?
    jsnjfz
        84
    jsnjfz  
       2019-05-22 00:39:58 +08:00
    A1321A
        85
    A1321A  
       2019-05-22 01:19:38 +08:00
    @qinghon 你认真的?
    lonelygo
        86
    lonelygo  
       2019-05-22 01:26:05 +08:00
    从疑车无据到真车,你们城里人真会玩。
    EscYezi
        87
    EscYezi  
       2019-05-22 01:28:22 +08:00 via iPhone
    meizitu 这个网站我爬过不过是直接解析网页里的图片链接,似乎没有做任何反爬的措施
    BBCCBB
        88
    BBCCBB  
       2019-05-22 08:14:45 +08:00
    我怀疑你在开车,但我又没有证据..

    再者说了, 你怎么穿着品如的衣服???
        89
    Pi7bo1  
       2019-05-22 08:40:03 +08:00
    诸君各显神通啊
    tony2lord
        90
    tony2lord  
       2019-05-22 08:40:09 +08:00
    我怀疑你在开车,但是。。。我好了
    usingnamespace
        91
    usingnamespace  
       2019-05-22 08:43:41 +08:00 via iPhone
    @onecode 有什么访问的 爬虫入门爬的网站
    codebear01
        92
    codebear01  
       2019-05-22 08:43:54 +08:00
    看到 meizitu 我就知道一定不简单
    TimFire
        93
    TimFire  
       2019-05-22 08:48:40 +08:00
    不是怀疑在开车,是肯定在开车,特么我点开后直接被公司的上网行为管控给屏蔽了,我要举报楼主
    坏笑:)
    mozutaba
        94
    mozutaba  
       2019-05-22 08:50:54 +08:00
    @whitehack 大老,有源码吗
    Variazioni
        95
    Variazioni  
       2019-05-22 09:02:06 +08:00
    我怀疑你在开车。。而且我有证据。。\u8fa3\u59b9\u6e29\u5fc3\u6021\u60c5\u8da3\u5185\u8863SM\u8bf1\u60d1\u4e30\u80f8\u7f8e\u81c0\u8eab\u6750\u70ed\u8fa3\u9500\u9b42
    likaka
        96
    likaka  
       2019-05-22 09:16:08 +08:00
    放我下车
    wildcat007
        97
    wildcat007  
       2019-05-22 09:41:49 +08:00
    本来以为是
    结果居然是

    我怀疑你在开车,而且楼上很多人都有证据了!!!
    dfjslkjdf
        98
    dfjslkjdf  
       2019-05-22 10:21:36 +08:00
    lz 好人,lz 一生平安?
    aaronhua
        99
    aaronhua  
       2019-05-22 10:26:13 +08:00
    开车。。。倒不如直接点开看呢。
    thisisusername
        100
    thisisusername  
       2019-05-22 10:38:19 +08:00
    1  2  
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2772 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 07:26 PVG 15:26 LAX 23:26 JFK 02:26
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86