大家有什么推荐 [提取关键词] 的开源吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
dai269619118
V2EX    程序员

大家有什么推荐 [提取关键词] 的开源吗?

  •  
  •   dai269619118 2015 年 10 月 27 日 3555 次点击
    这是一个创建于 3820 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今天试了下 jieba 和 snownlp
    jieba 使用自定义词典 权重不好控制
    snownlp 貌似不支持自定义词典 需要自己训练文本


    搜下了论坛里面的帖子 看到 @Livid 用的是 jieba 后面好像换了?
    换的是什么工具 能说下吗?
    大家推荐几个 我自己再去试试 找到个我自己合适的

    10 条回复    2015-10-28 09:17:11 +08:00
    xxm459259
        1
    xxm459259  
       2015 年 10 月 27 日
    LDA?
    jimmyBrother
        2
    jimmyBrother  
       2015 年 10 月 27 日
    你怎么定义关键词啊,是出现的次数比较多就算关键词么,还是有别的什么定义的方法;
    dai269619118
        3
    dai269619118  
    OP
       2015 年 10 月 27 日
    @jimmyBrother 匹配到词典里面的词 然后按权重排序
    shoumu
        4
    shoumu  
       2015 年 10 月 27 日
    自己写一个 TF-IDF 吧,然后根据你的训练数据跑一个 IDF ,再根据你的效果调一下参数什么的就好了
    dai269619118
        5
    dai269619118  
    OP
       2015 年 10 月 27 日
    @shoumu 嗯嗯 文本匹配字典 有什么算法吗?
    shoumu
        6
    shoumu  
       2015 年 10 月 27 日   1
    @dai269619118
    Hash ? Trie 树?
    你是想直接从字典中匹配出关键词吗?
    dai269619118
        7
    dai269619118  
    OP
       2015 年 10 月 27 日
    @shoumu 有思路了 谢谢啊
    iewgnaw
        8
    iewgnaw  
       2015 年 10 月 27 日   1
    Gestalt
        9
    Gestalt  
       2015 年 10 月 28 日   2
    V2EX 帖子的关键词提取目前是用我司的 API http://bosonnlp.com/ 之前在这个帖子里有提到: http://v2ex.com/t/147911#reply32
    dai269619118
        10
    dai269619118  
    OP
       2015 年 10 月 28 日
    @Gestalt 测试了一个文本 分析的很准! 谢谢
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1183 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 17:50 PVG 01:50 LAX 10:50 JFK 13:50
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86