
1 varrily 2013 年 12 月 26 日 还以为把mv文件采集出来了 |
3 Ansen 2013 年 12 月 26 日 与其数据,我更新关心脚本 |
4 slax 2013 年 12 月 26 日 我擦... 我会告诉你我就是音悦台的嘛.... |
5 manhere 2013 年 12 月 26 日 音悦台那也叫高清.... |
6 chervun 2013 年 12 月 26 日 啧啧…… |
7 xujialiang 2013 年 12 月 26 日 服务器 压力山大啊 |
10 letitbesqzr 2013 年 12 月 26 日 同想看看代码...python多线程一直掌握的不太好,很多种写法.. 自己写的总控制不好琐。。 |
11 pc10201 OP @letitbesqzr 我没有用锁,就是用了一个队列 |
12 pc10201 OP |
16 csx163 2013 年 12 月 26 日 楼主...都是标题啊,当初我可是弄的直接下载地址啊 |
18 tryv2eex 2013 年 12 月 26 日 v2ex 还是没有哪几个国外网站好 我是说用户体验 忽略上面的回复 只是在try v2ex |
19 tryv2eex 2013 年 12 月 26 日 对了 每次发新帖都要刷新一次页面? 试试 |
20 tryv2eex 2013 年 12 月 26 日 好象是的 刷新以后 居然又回到了页面顶端 我用的是Chrome 用用其他浏览器看看 |
21 tryv2eex 2013 年 12 月 26 日 Traceback (most recent call last): File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 1141, in _when_complete callback() File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 1162, in _execute_method self._when_complete(method(*self.path_args, **self.path_kwargs), File "/usr/local/lib/python2.7/dist-packages/tornado/web.py", line 2293, in wrapper return method(self, *args, **kwargs) File "/www/v2ex/galaxy/handlers/web/topic.py", line 74, in post return self.finalize('topic/newbie.html') File "/www/v2ex/galaxy/handlers/web/__init__.py", line 74, in finalize o = template.render(self.values) File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 969, in render return self.environment.handle_exception(exc_info, True) File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 742, in handle_exception reraise(exc_type, exc_value, tb) File "/www/v2ex/galaxy/templates/desktop/topic/newbie.html", line 1, in top-level template code {% extends 'desktop/common/layout0.html' %} File "/www/v2ex/galaxy/templates/desktop/common/layout0.html", line 63, in top-level template code {% block wrapper %} File "/www/v2ex/galaxy/templates/desktop/common/layout0.html", line 126, in block "wrapper" {% block main %} File "/www/v2ex/galaxy/templates/desktop/topic/newbie.html", line 4, in block "main" <div class="header">{{ breadcrumb([node.title + ':/go/' + node.name, '°é:/new/' + node.name, '訉']) }}</div> File "/usr/local/lib/python2.7/dist-packages/jinja2/environment.py", line 397, in getattr return getattr(obj, attribute) UndefinedError: 'node' is undefined |
22 tryv2eex 2013 年 12 月 26 日 刚才v2ex出现了错误 一下子曝光好多信息 python tornado |
24 binux 2013 年 12 月 26 日 book.douban.com豆瓣读书 600+万数据采集 1. id不是连续的,而且id不一定是数的,不过可以根据跳转后的域名是不是book判断 http://boo.douban.com/subject/25785270/ 2. 如何更全地获取全量数据 由于douban是没有穷举接口的,要获取所有的书很不方便,于是有 方案一:follow tag列表,但是会经常遇到重复的书,follow的量都快赶上书的量了 方案二:isbn穷举,从dangdang、amazon、京东商品列表是可以遍历的,通过获取他们的图书信息,获得isbn库,通过 https://api.douban.com/v2/book/isbn/ 接口获得书的地址 3. 豆瓣有防采集机制,大约每秒1个以上就会被封,早期导致我们的一个IP被封了一年 解决方案:抓取公开的代理列表,通过代理抓取,多重试 |
25 nimini 2013 年 12 月 26 日 无图 你说个JB |
26 tryv2eex 2013 年 12 月 26 日 @没有这个人 会怎么样 |
28 lj0014 2013 年 12 月 27 日 via Android 曾经遍历了豆瓣一亿以内的id... |
30 asca 2013 年 12 月 27 日 音悦台有水印,清晰度也不高,下载下来也没多大意思。 |