对于站内搜索大家都是如何实现的? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
richiefans
V2EX    问与答

对于站内搜索大家都是如何实现的?

  •  
  •   richiefans 2011-12-27 21:07:33 +08:00 6179 次点击
    这是一个创建于 5110 天前的主题,其中的信息可能已经有所发展或是发生改变。
    数据量不大 貌似用数据库就可以了,比如博客啥的~
    但数据量大 且需要有分词概念的时候 大家如何实现的?
    如果在考虑一下商业化 比如权重,排名之类的又如何呢?

    目前我在看solr 大家有什么好的方案么?
    15 条回复    2016-01-27 09:12:23 +08:00
    daqing
        1
    daqing  
       2011-12-27 21:18:33 +08:00
    最近也在考虑这方面的东西,目前可以选择的: Solr, Coreseek, 用Lucene自己定制开发,Redis-search。

    基本上大型网站,用Lucene定制开发的居多。专业搜索引擎如百度,有道等,应该是自己的技术了。
    Julyyq
        2
    Julyyq  
       2011-12-27 21:19:50 +08:00
    直接用DW实现的菜鸟飘过~
    delectate
        3
    delectate  
       2011-12-27 21:55:22 +08:00
    用google custom
    richiefans
        4
    richiefans  
    OP
       2011-12-27 21:58:33 +08:00
    @daqing 看了一下Coreseek是基于Sphinx 貌似也还行 Solr配置起来比较简单 先把它整整看 不知道用哪个中文分词比较好 imdict貌似不支持自定义词库
    daqing
        5
    daqing  
       2011-12-27 22:42:09 +08:00
    meecle
        6
    meecle  
       2011-12-27 22:47:59 +08:00
    刚才到GNU.org去搜索软件,发现Hyper Estraier : a full-text search system for communities, 这个可以,更多的去http://fallabs.com/ 看看!
    meecle
        7
    meecle  
       2011-12-27 22:49:15 +08:00
    www.gnu.org 也再用这个,参考这里: http://www.gnu.org/cgi-bin/estseek.cgi
    Blask
        8
    Blask  
       2011-12-28 00:20:13 +08:00
    google custom 不错啊.
    Tianpu
        9
    Tianpu  
       2011-12-28 01:04:17 +08:00   1
    @richiefans 记得给我小红花 www.xunsearch.com
    xiangjian
        10
    xiangjian  
       2012-01-09 18:38:44 +08:00
    有没有对 pdf,word,PPT ,支持比较好的 全文搜索。中文分词最好可以自定义
    dreampuf
        11
    dreampuf  
       2012-01-09 20:38:01 +08:00
    document database 自己随意控制.
    小的业务需求也很容易实现.
    tuzi
        12
    tuzi  
       2012-06-27 22:53:00 +08:00
    @Tianpu 似乎不错,谢谢
    INT21H
        13
    INT21H  
       2012-06-27 23:24:22 +08:00
    啊 分词用mmseg就蛮好
    yandy
        14
    yandy  
       2014-08-25 21:54:37 +08:00
    可以用一些 第三方的搜索服务,有 RESTful 的 API。例如国内有一家做的不错的 teahour.fm 就在用他们的服务。看到对中文的支持挺好的,还可以拼音搜索,拼音补全。
    kwklover
        15
    kwklover  
       2016-01-27 09:12:23 +08:00
    一般大型的,会选用 JAVA 平台的 ES 或 SOLR ,其实底层都是基于 LUCENE ,特定是定制型强大,开发量和维护量也不小;
    用 MYSQL 数据库可能会喜欢搭配 Sphinx 或基于它的衍生品,整合的比较密集,配置好了,查询用的类 SQL 语句,还是比较方便的,就是中文分词不太好,或者可定制性差些,性能还是挺高的;
    WINDOWS 平台下中小草根站长可能比较喜欢选用搜易站内搜索引擎,基本不用开发了。点点鼠标就可以创建一个站内搜索。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3021 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 43ms UTC 12:08 PVG 20:08 LAX 04:08 JFK 07:08
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86