想问个问题传统 Java 站点搜索一般是怎么处理的 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
soap0X
V2EX    Java

想问个问题传统 Java 站点搜索一般是怎么处理的

  •  
  •   soap0X 2024-10-13 00:06:58 +08:00 1936 次点击
    这是一个创建于 428 天前的主题,其中的信息可能已经有所发展或是发生改变。

    0.因为没有实际的线上经验想了解下线上的技术栈(针对 java 的,网上资料很少)。

    1.之前一段时间学了点基础,但也有很多问题没解决。

    传统的:分词(切词器)+索引(数据结构+索引文件处理)+打分( BM25)

    疑问:常见的错别字+同义词类的处理 索引的更新问题实时和非实时一般都是怎么抉择处理的

    2.还有就是现在的搜索感觉多多少少都会和机器学习挂点勾(学机器学习的话精力和理解跟不上了)

    3.单纯点 elasticsearch 是否能满足一个垂直站点的需求

    6 条回复    2024-10-14 18:30:42 +08:00
    fredcc
        1
    fredcc  
       2024-10-13 00:53:47 +08:00
    select * from xxx where content like '%aaa%';
    soap0X
        2
    soap0X  
    OP
       2024-10-13 09:23:46 +08:00 via Android
    @fredcc 用全文检索吗
    liangdi
        3
    liangdi  
       2024-10-13 12:00:30 +08:00
    elasticsearch/opensearch 当然可以满足,机器配置够的话,这是最简单的方案,性能,功能,扩展性都满足
    soap0X
        4
    soap0X  
    OP
       2024-10-13 18:35:44 +08:00 via Android
    ntedshen
        5
    ntedshen  
       2024-10-14 03:32:08 +08:00
    说起来我上 v2 最初好像就是为了这个事的来着。。。
    N 个前的前司用的 coreseek 已倒闭
    elk 全家桶主要是显著的供过于求
    mysql/mariadb 的 innodb 分词不怎么适配 cjk 大区
    目前在用岛国的 groonga 全家桶,pgroonga 和 mroonga 都是开箱即用。。。
    不过 groonga 基于的 mecab 现在也是十几年没更了,只能说堪用。。。
    soap0X
        6
    soap0X  
    OP
       2024-10-14 18:30:42 +08:00 via Android
    @ntedshen 谢了,后面了解下
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3119 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 11:28 PVG 19:28 LAX 03:28 JFK 06:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86