基于 python 写的一个 google 的爬虫 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Packge Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Fing

基于 python 写的一个 google 的爬虫

  •  
  •   Fing Aug 4, 2015 5062 views
    This topic created in 3920 days ago, the information mentioned may be changed or developed.
    解析器用的是beautifulsoup,框架是Django,数据库mysql。爬虫的数据会放到数据库,所以对磁盘IO有要求,不过就我一个人用,峰值很低很低,所以一直想看看云盘承受能力,内存使用情况其实也很感兴趣。中午在程序员节点发个贴(12点发的),考虑到V2的强大,做好了down机随时重启VPS的准备,一直等到12点半才来一个访问者,后来干脆去吃饭了(公司12点开饭),吃完回来一看有了7,8个人访问了,一看V2,帖子沉了,应该我发了网址,V2把帖子当成软广告了,我是希望有人能够回复,做的怎么样,哪里不行,什么水平,可以怎么改进,哪怕是一句“这也好意思放到V2”我都能接受,所以选在大家下班之后的这个点厚着脸皮再发一次,看能不能有大牛评价下,发现什么bug或者黑掉我的主机(可能是我想多了)之类的,网址是googlebridge.com,求重踩...
    Supplement 1    Aug 4, 2015
    明天要上班,我先睡了。目前的情况汇报下,内存上升到62%,CPU上升10%。我叫googlebridge,我在V2等你(回复)~
    28 replies    2015-09-05 17:26:50 +08:00
    limuxy
        1
    limuxy  
       Aug 4, 2015 via Android
    为什么要存进数据库啊 会经常搜索同样的关键词? #我是来消灭零回复的#
    eycfsjd
        2
    eycfsjd  
       Aug 4, 2015
    google会封你不
    Fing
        3
    Fing  
    OP
       Aug 4, 2015
    @limuxy 刚做出来的时候不放,后来由于国内要备案,而且做这个站的目的很单纯,所以我选择要过滤一批数据,用数据库过滤,感觉跟栈的概念差不多,先放进去再拿出来~
    Fing
        4
    Fing  
    OP
       Aug 4, 2015
    @anexplore 我能用阿里云爬 ,我就能让他封不了。
    est
        5
    est  
       Aug 4, 2015
    @Fing 如何做到的?阿里云出口IP是动态的?
    Fing
        6
    Fing  
    OP
       Aug 4, 2015
    @est 我技术很菜,但我还是想保持一点神秘感~
    eycfsjd
        7
    eycfsjd  
       Aug 4, 2015
    @Fing 代理ip?
    Fing
        8
    Fing  
    OP
       Aug 4, 2015
    @anexplore bingo
    zhicheng
        9
    zhicheng  
       Aug 4, 2015
    我写过一个 es + crawler ,基本可以实现一个简单的 Search Engine 了,可以爬指定站,各位小伙伴有兴趣吗?
    limuxy
        10
    limuxy  
       Aug 4, 2015 via Android
    @Fing 直接在内存里处理不是比较快么 写进去再读出来很影响性能吧
    话说为了能备案也不容易 还得自我审查啊
    x4
        11
    x4  
       Aug 4, 2015 via Android
    Fing
        12
    Fing  
    OP
       Aug 5, 2015
    @limuxy 我也跟你有同样的想法,所以我才想到到V2发贴,多一点访问我好在后台看状态。然后目前的情况就是:
    1,服务器负载很小,做这些读写操作不会影响到服务器的运行。
    2,内存处理跟这种读写的方式也许会有延时,不过是ms为单位,而这个站点主要做的是抓取google国外站,抓取分析可能要2-6秒,所以后者是s为单位,所以前者的ms级别对于这个站点就微乎其微了。而且对于常用关键词放到数据库反而是个缓存,这是我目前的想法。
    tdifg
        13
    tdifg  
       Aug 5, 2015
    还以为是自己爬呢,原来是爬google啊。ok,当镜像站收了……
    Fing
        14
    Fing  
    OP
       Aug 5, 2015
    @tdifg 你说了算咯~
    invite
        15
    invite  
       Aug 5, 2015
    没看明白,这个不就是一个代理?主要想做哪方面技术攻关?
    Fing
        17
    Fing  
    OP
       Aug 5, 2015
    @zhuzhenyu ......
    Fing
        18
    Fing  
    OP
       Aug 5, 2015
    @invite 你可以给我一个关键词,我给演示一下
    invite
        19
    invite  
       Aug 5, 2015
    @Fing 你随便挑个关键词,然后给个演示就好了。
    heaton_nobu
        20
    heaton_nobu  
       Aug 5, 2015
    搜索结果url中文没有编码回来
    下面分页没有显示当前页码
    搜索某个关键词后14页往后结果都一样,但是可以不断向后翻页
    Fing
        21
    Fing  
    OP
       Aug 5, 2015
    @heaton_nobu 你是棒棒的
    WKPlus
        22
    WKPlus  
       Aug 6, 2015
    是我在googlebridge上搜索一个词,然后googlebridge实时去搜索google,然后把结果缓存起来供下次使用的意思么?

    话说,如果只是要看性能,自己不是也可以测试么?
    Fing
        23
    Fing  
    OP
       Aug 6, 2015
    @WKPlus 目前是的,以后可能只存一天或者根据热度来决定保存时间
    sinosure
        24
    sinosure  
       Aug 8, 2015
    提个建议,可否支持类似这种搜索,site:v2ex.com/t bottle,算是v2ex的福利了
    sinosure
        26
    sinosure  
       Sep 5, 2015
    好用,我用 wox 建了个快捷方式,这下查东西方便了, v 对应在 V2EX 下查, gg 对应在 googlebridge 下查。非常赞。貌似作者还是个 wower
    Fing
        27
    Fing  
    OP
       Sep 5, 2015
    @sinosure 作者已经堕落的很多年~
    sinosure
        28
    sinosure  
       Sep 5, 2015
    wox 凑合用了,也没见到 win 下其他类似的更新的很勤快吧
    About     Help     Advertise     Blog     API     FAQ     Solana     3386 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 51ms UTC 11:01 PVG 19:01 LAX 04:01 JFK 07:01
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86