
1 niknik 2019-05-21 16:40:54 +08:00 怎么说 |
2 jtwor 2019-05-21 16:42:14 +08:00 https://www.cnblogs.com/fnng/p/3576154.html 看这个 我记得虫师还有个 Selenium 教程 |
3 tabris17 2019-05-21 16:43:11 +08:00 如果谢谢有用的话,还要印钞厂干嘛 |
4 alw 2019-05-21 16:45:39 +08:00 本人懒,谁给钱让我赖活着,感谢。 (要爬什么不说,给什么回报不说,就只想别人帮忙,还得去问你:请问你需要解决什么问题?) |
5 onecode OP 没人写,我自己写了啊 |
6 wqzjk393 2019-05-21 16:49:37 +08:00 贴个 csdn 的。。我记得之前学异步协程时候拿来测试过,直接复制下来就能跑。。。( https://blog.csdn.net/ns2250225/article/details/78448955 ) |
7 Ct5T66PVR1bW7b2z 2019-05-21 16:49:46 +08:00 via Android 不报个价,谁给你写 |
8 AFuture 2019-05-21 16:49:51 +08:00 via iPhone 看到 5 楼的回复....楼主你倒是自己写啊 |
9 自己写吧,用不到太多的技术难点吧。 |
11 vinew 2019-05-21 16:59:32 +08:00 via iPhone 响应数据看着像 json,可以考虑用 shell 爬,然后用 jq 命令处理 json |
12 Immortal 2019-05-21 17:00:54 +08:00 看到 5l 有点想笑 "你们不赶紧抢着写,要被我自己写了!" |
13 cuebyte 2019-05-21 17:01:09 +08:00 我你 |
14 onecode OP 为啥你们就不访问 url 看一下呢,伤心 |
15 gjf 2019-05-21 17:04:42 +08:00 via Android 这也简单了吧? |
16 lithiumii 2019-05-21 17:05:44 +08:00 最近流行以爬虫的名义开车? |
17 Eytoyes 2019-05-21 17:14:46 +08:00 我怀疑你在开车,但我好像有证据 |
18 cyssxt 2019-05-21 17:22:11 +08:00 via iPhone 技术车 |
19 ctro15547 2019-05-21 17:22:32 +08:00 不用怀疑 我感觉你就是在开车 已经保留证据 |
20 ttimasdf 2019-05-21 17:22:37 +08:00 NSFW. |
21 exceloo 2019-05-21 17:24:21 +08:00 艹,NSFW,能不开车吗? |
22 onecode OP 简单的 uwp 程序已经写好,微软不给我上架,老是被拒,难过 |
23 zdnyp 2019-05-21 17:25:19 +08:00 铐起来 |
24 zgcwkj 2019-05-21 17:31:07 +08:00 |
26 opengps 2019-05-21 17:34:40 +08:00 妹子图?似乎是在开车。。。 |
27 ben1024 2019-05-21 17:34:52 +08:00 开车? |
28 tikazyq 2019-05-21 17:36:07 +08:00 请关注爬虫平台 Crawlab Github: tikazyq/crawlab |
29 kY8mbXW833Lu28xn 2019-05-21 17:36:38 +08:00 via Android 感谢楼主。 |
30 registerrr 2019-05-21 17:37:14 +08:00 好奇这是个网站吗?网站首页是个啥? http://adr.meizitu.net/是 403 https://www.meizitu.net/也打不开,只有 https://i2.meizitu.net/能打开,但是是个朦胧月色? What ??? |
31 opengps 2019-05-21 17:38:00 +08:00 |
32 ben1024 2019-05-21 17:38:26 +08:00 ``` <?php $jsOns= file_get_contents('http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20'); $json_arr = json_decode($jsons, true); foreach ($json_arr as $value) { file_put_contents($value['id'].'.jpg', file_get_contents($value['thumb_src'])); } ``` |
33 baicheng10 2019-05-21 17:39:55 +08:00 还好吧,点开看了一个,标题看着像车,假车那种。 MARK 一下,后面看搜集一点,说不定能用上呢。 |
34 ben1024 2019-05-21 17:44:58 +08:00 |
36 wq2016 2019-05-21 17:54:07 +08:00 重新学也就 20 分钟,还跑来发个帖 |
37 whitehack 2019-05-21 17:54:37 +08:00 开车吗?。。。。那我开个飞机吧 https://737max.tk |
38 deepdark 2019-05-21 17:56:54 +08:00 via Android 我怀疑你在开车,而且我有证据 |
39 zhtttyecho 2019-05-21 17:57:56 +08:00 偷偷收藏一下,应该没人发现吧 |
40 sheeta 2019-05-21 18:00:40 +08:00 我怀疑你在开车,证据已经保存下来了 |
41 foxyier 2019-05-21 18:00:43 +08:00 刚从旁边的车下来, 怎么稀里糊涂又上了另一辆 |
42 brust 2019-05-21 18:01:34 +08:00 |
43 CEBBCAT 2019-05-21 18:06:32 +08:00 via Android V2 转型煎蛋,下一帖就是 XX 女装 |
44 HFX3389 2019-05-21 18:08:05 +08:00 你好骚啊! |
45 R18 2019-05-21 18:08:55 +08:00 via Android 兄弟你的口味真独特 |
46 996icu 2019-05-21 18:10:44 +08:00 我怀疑你在开车 |
47 miniwade514 2019-05-21 18:13:47 +08:00 楼主搞好了能否贴个 github 地址,纯学习 |
48 Norie 2019-05-21 18:59:38 +08:00 via Android 实锤开车 |
49 yearliny 2019-05-21 19:00:49 +08:00 这么良好的格式要什么爬虫,PowerShell 就搞定了。 ```powershell $json=Invoke-WebRequest "http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20" -Method Get | ConvertFrom-Json $wc = New-Object System.Net.WebClient foreach ($i in $json) { $wc.DownloadFile($i.thumb_src, $json[0].thumb_src.LastIndexOf("/") + 1) } ``` |
50 TMaize 2019-05-21 19:10:00 +08:00 via Android 之前爬过,我有全站的数据 |
51 jsnjfz 2019-05-21 19:14:36 +08:00 meizitu 的爬虫在 github 上搜下应该有 |
52 dabaibai 2019-05-21 19:16:33 +08:00 你头像 能快速写出爬虫啊.. golang 真香 |
53 ddzy 2019-05-21 19:17:00 +08:00 都误会楼主了, 慢点, 晕车 |
54 renmu123 2019-05-21 19:23:32 +08:00 via Android 我网盘还有这网站 10g 的资源 |
55 zoyopo 2019-05-21 19:24:24 +08:00 orz |
56 YAHIKO0 2019-05-21 19:30:32 +08:00 妹子图不是早就没有了吗 |
57 javen73 2019-05-21 19:30:48 +08:00 ???我怀疑你再开车,但我没有证据 |
58 luckyjack 2019-05-21 19:31:11 +08:00 花式开车 |
59 RLinux 2019-05-21 19:32:55 +08:00 这个都这么多人回复 为啥我的没人理的~~~ |
60 baiducom 2019-05-21 19:32:57 +08:00 via Android 咳咳咳 好吧(  ̄д ̄;)ノ |
61 Constellation39 2019-05-21 19:42:12 +08:00 疑车有据 |
62 0x4F5DA2 2019-05-21 19:47:42 +08:00 我怀疑你在搞黄色,我好像也有证据 |
63 iwishing 2019-05-21 20:03:55 +08:00 @yearliny 改了一下你的 $json=Invoke-WebRequest "http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20" -Method Get -UseBasicParsing| ConvertFrom-Json $wc = New-Object System.Net.WebClient foreach ($i in $json) { $output = split-path -Leaf $i.thumb_src $wc.DownloadFile($i.thumb_src,$output) } |
64 zackwu 2019-05-21 20:08:34 +08:00 |
65 Atukey 2019-05-21 20:11:44 +08:00 极速车 |
66 Shiyq 2019-05-21 20:19:20 +08:00 没意思(我好了) |
67 claysec 2019-05-21 20:27:45 +08:00 via iPhone 空手套白狼?(滑稽) |
68 zzh1224 2019-05-21 20:31:24 +08:00 你的开车技术真的一流 |
69 bld2018 2019-05-21 21:08:14 +08:00 不是有成品发布过吗? |
70 canwex 2019-05-21 21:41:57 +08:00 import requests import json url = 'https://adr.meizitu.net/wp-json/wp/v2/posts?page={}&per_page={}' per_page = 100 page = 52 print('##### spider start #####') while True: page += 1 json_data = requests.get(url.format(page, per_page)) data = json.loads(json_data.text) if not isinstance(data, list): print('##### spider end #####') break for item in data: thumb_src = item['thumb_src'] title = item['title'] + '.jpg' print('[+] downloading {} ...'.format(title)) meizi = requests.get(thumb_src) if meizi.status_code == 200: with open(title, 'wb') as f: f.write(meizi.content) |
72 zzzzzzzzzp 2019-05-21 22:21:52 +08:00 [{"id":181372,"title":"辣妹温心怡情趣内衣 SM 诱惑 丰胸美臀身材热辣销魂","img_num":46,"thumb_src":"https:\/\/i2.meizitu.net\/2019\/04\/23a25.jpg","thumb_src_min":"https:\/\/i2.meizitu.net\/thumbs\/2019\/05\/181372_23a25_236.jpg"},{"id":180743,"title":"大胸女神恩一雪白玉兔诱人呈现 手捧巨乳再掀性感狂潮"..... |
73 wpzero 2019-05-21 22:34:04 +08:00 via iPhone |
74 calebx 2019-05-21 22:34:46 +08:00 早说吗! |
75 tt0411 2019-05-21 22:47:56 +08:00 要啥爬虫, 一行命令的事情 curl -s http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20 | jq -r '.[] | .thumb_src' | xags -IX curl -s -O X |
77 harvies 2019-05-21 23:34:03 +08:00 import json import os import requests if __name__ == '__main__': flag = True page = 1 while flag: print("page:" + str(page)) list_html = requests.get("http://adr.meizitu.net/wp-json/wp/v2/posts?page=" + str(page) + "&per_page=20") cOntent= list_html.content json_loads = json.loads(content) if isinstance(json_loads, list): print(json_loads) for list_item in json_loads: id_ = list_item['id'] title = list_item['title'] print(title) detail_html = requests.get("http://adr.meizitu.net/wp-json/wp/v2/i?id=" + str(id_)) detail_json = json.loads(detail_html.content) print(detail_json) str_content_ = detail_json['content'] content__split = str_content_.split(',') print('downloading ' + str(content__split)) for detail_item in content__split: print(detail_item) rfind = detail_item.rfind('/') file_name = detail_item[rfind + 1:len(detail_item)] folder_path = "./images/" + title + '/' if not os.path.exists(folder_path): os.makedirs(folder_path) requests_get = requests.get(detail_item) with open(folder_path + file_name, "wb") as f: f.write(requests_get.content) else: code_ = json_loads['code'] if code_ != 'rest_post_invalid_page_number': print(code_) else: print(code_ + " exit") flag = False page += 1 |
79 xiaobai987 2019-05-21 23:40:01 +08:00 图片地址都好爬 关键是 怎么样把地址全部快速爬下来 网站反爬很坑爹 |
80 A1321A 2019-05-22 00:00:25 +08:00 车个屁,你们这也配叫车?笑出前列腺液....https://github.com/94se/94se---/wiki |
81 linvaux 2019-05-22 00:23:08 +08:00 via Android 果然特么十个爬虫九个都是妹子图 |
82 qinghon 2019-05-22 00:28:41 +08:00 via Android #80 is or contains sexually obscene content 举报了 |
83 ningfeng 2019-05-22 00:31:33 +08:00 via Android 确实不能算车,meizitu 连点都不漏,婴儿车吗? |
84 jsnjfz 2019-05-22 00:39:58 +08:00 |
86 lonelygo 2019-05-22 01:26:05 +08:00 从疑车无据到真车,你们城里人真会玩。 |
87 EscYezi 2019-05-22 01:28:22 +08:00 via iPhone meizitu 这个网站我爬过不过是直接解析网页里的图片链接,似乎没有做任何反爬的措施 |
88 BBCCBB 2019-05-22 08:14:45 +08:00 我怀疑你在开车,但我又没有证据.. 再者说了, 你怎么穿着品如的衣服??? |
89 Pi7bo1 2019-05-22 08:40:03 +08:00 诸君各显神通啊 |
90 tony2lord 2019-05-22 08:40:09 +08:00 我怀疑你在开车,但是。。。我好了 |
91 usingnamespace 2019-05-22 08:43:41 +08:00 via iPhone @onecode 有什么访问的 爬虫入门爬的网站 |
92 codebear01 2019-05-22 08:43:54 +08:00 看到 meizitu 我就知道一定不简单 |
93 TimFire 2019-05-22 08:48:40 +08:00 不是怀疑在开车,是肯定在开车,特么我点开后直接被公司的上网行为管控给屏蔽了,我要举报楼主 坏笑:) |
95 Variazioni 2019-05-22 09:02:06 +08:00 我怀疑你在开车。。而且我有证据。。\u8fa3\u59b9\u6e29\u5fc3\u6021\u60c5\u8da3\u5185\u8863SM\u8bf1\u60d1\u4e30\u80f8\u7f8e\u81c0\u8eab\u6750\u70ed\u8fa3\u9500\u9b42 |
96 likaka 2019-05-22 09:16:08 +08:00 放我下车 |
97 wildcat007 2019-05-22 09:41:49 +08:00 本来以为是 结果居然是 我怀疑你在开车,而且楼上很多人都有证据了!!! |
98 dfjslkjdf 2019-05-22 10:21:36 +08:00 lz 好人,lz 一生平安? |
99 aaronhua 2019-05-22 10:26:13 +08:00 开车。。。倒不如直接点开看呢。 |
100 thisisusername 2019-05-22 10:38:19 +08:00 |