做了一个比百度谷歌更流畅更丝滑的搜索引擎,欢迎大家提建议 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bigtang
V2EX    互联网

做了一个比百度谷歌更流畅更丝滑的搜索引擎,欢迎大家提建议

  •  
  •   bigtang 2023 年 6 月 20 日 4364 次点击
    这是一个创建于 1024 天前的主题,其中的信息可能已经有所发展或是发生改。
    大家习惯了百度谷歌的用法,以为已经到了极致,其实还可以更快。
    大家也习惯了使用 ElasticSearch, 无论大中小公司都在使用。

    很难想象一个极度需要性能的业务居然从底层都是基于 java 开发的,大家来对比一下我们基于 c++开发的搜索引擎:
    tanglib.com , 从搜索体验上,是否有一些超出。

    tanglib.com 目前运行在单机上,接近 1T 的文本,从后台看响应基本在几毫秒内,即是做成集群,聚合搜索结果一般也不会超过十毫秒,人类根本感觉不到。

    v2ex 上曾经有几个小搜索引擎,例如 magi.com , 不过看起来最终都没有做起来。

    这项技术如何发展,我没有想好,恳求大家发表建议,集思广益一下,谢谢。
    25 条回复    2023-06-21 00:32:31 +08:00
    shinession
        1
    shinession  
       2023 年 6 月 20 日
    试了几次, 还不错, 收藏支持一下
    zhangxiuyan
        2
    zhangxiuyan  
       2023 年 6 月 20 日
    好像崩了
    SkYouth
        3
    SkYouth  
       2023 年 6 月 20 日
    查询失败,Request failed with status code 502
    bigtang
        4
    bigtang  
    OP
       2023 年 6 月 20 日
    #2, 确实, 启动要等 5 分钟。。。
    GeekSuPro
        5
    GeekSuPro  
       2023 年 6 月 20 日
    查询失败,Request failed with status code 502

    可以先保证可用性嘛?
    centralpark
        6
    centralpark  
       2023 年 6 月 20 日
    代码块至少用个 <pre /> 标签吧
    jasonhui512
        7
    jasonhui512  
       2023 年 6 月 20 日
    1T 的文本都是 github 的代码?
    bigtang
        8
    bigtang  
    OP
       2023 年 6 月 20 日
    #7 , 关于 里面有详细介绍
    Martin123123
        9
    Martin123123  
       2023 年 6 月 20 日
    本质上现有的搜索引擎都不是单纯的搜索引擎,关键的话还是数据源,还包含很多其他的功能,比如说自然语言的处理,不管是百度、Google 、Bing 搜索「笑米手机」实际上搜出来的结果是小米手机,还有基于用户的搜索历史和浏览行为的推荐算法之类的很多功能
    sadfQED2
        10
    sadfQED2  
       2023 年 6 月 20 日 via Android
    你这是推销业务还是推销技术引擎?业务的话这 ui 交互也太差了吧?推销技术框架的话,也没见技术细节和性能功能对比呀
    MuSeCanYang
        11
    MuSeCanYang  
       2023 年 6 月 20 日
    502
    stonepy
        12
    stonepy  
       2023 年 6 月 20 日
    每次输入字符就触发查询,不可能不崩吧,建议先做个防抖和节流
    bigtang
        13
    bigtang  
    OP
       2023 年 6 月 20 日
    #11 修改了一下,可以了;#10 ,都不完善,拿出来讨论总是可以的吧;#9 ,完整搜索引擎当然是超级复杂,目前是希望大家帮找到亮点和可能性吧,如果都做成功了就不需要讨论了
    bigtang
        14
    bigtang  
    OP
       2023 年 6 月 20 日
    #12 防抖和节流现在就有,崩是刚才有人在做极限测试,改好了。
    wateryessence
        15
    wateryessence  
       2023 年 6 月 20 日
    全文搜索就和 es meilisearch algolia 做 benchmark ,标题取得太唬人了
    cherryas
        16
    cherryas  
       2023 年 6 月 20 日
    亮点速度快
    原理分析:最多也只能返回 30 个结果所以速度快
    bjzhush
        17
    bjzhush  
       2023 年 6 月 20 日
    优点:非常快,可以说是实时
    缺点:没有太落地的场景,发挥不出什么价值
    hellodigua
        18
    hellodigua  
       2023 年 6 月 20 日
    流畅丝滑可能是因为内容太少了,搜啥都搜不到……

    等数据量到 PB 级别的时候,再来对比一下速度
    bigtang
        19
    bigtang  
    OP
       2023 年 6 月 20 日
    #16 ,返回 2000 条还是一样快的,返回 20 万条可能会慢,但谁会需要 20 万条结果呢?
    #18 ,PB 级数据就有集群了,还是一样的快
    lxc404
        20
    lxc404  
       2023 年 6 月 20 日
    踩一脚 ElasticSearch 大可不必吧,ES 真正强大的不是各种查询语法吗,你这能支持多少呢
    inhzus
        21
    inhzus  
       2023 年 6 月 20 日
    对比 sphinx, meilisearch, vespa 这些呢... 一对比就来活了
    c2const
        22
    c2const  
       2023 年 6 月 20 日
    感觉数据量不够,还是习惯谷歌的结果
    C603H6r18Q1mSP9N
        23
    C603H6r18Q1mSP9N  
       2023 年 6 月 20 日
    让我想起来一个笑话:
    请问 168 乘以 861 等于多少?没任何思考 回答 82128

    只保证快,没说答案对
    bigtang
        24
    bigtang  
    OP
       2023 年 6 月 20 日
    #22 #23 应该是非技术人员,本帖本意是说比较搜索体验,不是代替百度谷歌。
    tanglib.com 只是源代码搜索,只能搜源代码。
    当然如果真有百度谷歌那么多内容,加上 pagerank ,是可以超越百度谷歌的。
    tntin
        25
    tntin  
       2023 年 6 月 21 日 via Android
    标题党 。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3480 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 42ms UTC 10:59 PVG 18:59 LAX 03:59 JFK 06:59
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86