
最近用 Python 写了一个简书用户的爬虫,单机耗时 30 小时抓取了简书 30 万用户的数据(设置了适当的下载延迟,所以耗时较长。当然了,主要是避免简书服务器造成不必要的压力)。简书用户用户量我不知有多少,这 30 万只是其中相对活跃的一小部分,但个人认为这份数据还是具有一定的代表性
1 gaoyadianta Jun 13, 2017 玩 python 多久了,看着还挺有意思的嘛 |
2 kokdemo Jun 13, 2017 这个应该算是用户统计,还谈不上画像。 但是能爬了这么多数据也挺有意思的…… |
3 xiaoyu9527 Jun 13, 2017 我现在想抓微博的网红和模特和 COSER 然后抓他们发的套图。 你们有没有思路? |
4 xiaoyu9527 Jun 13, 2017 然后做一个瀑布流网站。 |
5 xiaoyu9527 Jun 13, 2017 @keisuu 有没有思路 |
6 lzjun Jun 13, 2017 有点意思 |
7 keisuu OP @gaoyadianta 努力成长的菜鸟一枚 |
8 keisuu OP @xiaoyu9527 第一步获取数据( github 有开源的微博爬虫),第二步用 web 框架( django、flask )搭建一个网站将抓的数据展示出来。 |
9 xiaoyu9527 Jun 13, 2017 @keisuu 就是没有思路怎么整理数据(如何知道他是女模特或者 COSER ) |
10 haoba Jun 13, 2017 @xiaoyu9527 只抓指定的几个人的 feed,或者关联的就再抓上他关注的人的 feed。然后拉回本地分析一下图。 |
11 zzljzeng Jun 13, 2017 via iPhone 好 6666 |
12 l32606 Jun 14, 2017 via Android 画图用的是什么? |
13 xiaoyu9527 Jun 14, 2017 @haoba 我目前的思路也是先抓 1 人再抓剩下的人。这种思路。 |
14 longchisihai Jun 14, 2017 同问怎么画图的 |
15 bget Jun 20, 2017 推荐一个好用的爬虫软件,看能否帮上忙:www.sensite.cn/bget,速度快、稳定、灵活性高,可节省写代码的时间。 |