如何把一个单词分解成词根+词缀的组合? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
arvin01
V2EX    问与答

如何把一个单词分解成词根+词缀的组合?

  •  
  •   arvin01 2022-08-18 10:46:07 +08:00 2774 次点击
    这是一个创建于 1235 天前的主题,其中的信息可能已经有所发展或是发生改变。
    假设已经有了足够丰富的词根词缀表,如何把一个单词分解为词根+词缀的组合?

    对于多词根、多词缀的单词呢?
    第 1 条附言    2022-08-18 11:36:28 +08:00

    更新:这里的单词指的是 英语单词

    第 2 条附言    2022-08-18 12:27:15 +08:00

    找到一个开源项目:https://github.com/lnkDrop/Match-Root,通过组合已有的词根词缀去匹配单词,优先匹配长词根

    25 条回复    2022-08-19 10:33:10 +08:00
    xtreme1
        1
    xtreme1  
       2022-08-18 10:51:35 +08:00
    不规则的情况太多了, 我觉得爬点什么东西然后直接查表比较好
    例如: https://en.wiktionary.org/wiki/ambassador
    jiezhi
        2
    jiezhi  
       2022-08-18 11:00:03 +08:00
    Tire
    jiezhi
        3
    jiezhi  
       2022-08-18 11:01:05 +08:00
    @jiezhi #2 Tire -> Trie
    tf2
        4
    tf2  
       2022-08-18 11:02:33 +08:00
    一般都是靠穷举
    murmur
        5
    murmur  
       2022-08-18 11:03:13 +08:00
    德语可以这么学,英语就算了,死记硬背是最快的,比如人家跟你说 cardinal ,card 是心脏的词根( cardiac 心外就用这个词)

    然后你,啊,card 不是纸牌么

    可拉倒吧
    arvin01
        6
    arvin01  
    OP
       2022-08-18 11:05:22 +08:00
    @xtreme1 谢谢,预加载的话,对存储就有要求了,放本地占空间,远程占带宽,不得已不想用~
    arvin01
        7
    arvin01  
    OP
       2022-08-18 11:07:25 +08:00
    @murmur 把单词分解一遍也更好背吧,来自英语渣的幻想
    arvin01
        8
    arvin01  
    OP
       2022-08-18 11:08:23 +08:00
    @lambdaq 我也想到穷举,但具体的穷举规则不知道怎么写
    arvin01
        9
    arvin01  
    OP
       2022-08-18 11:09:59 +08:00
    @jiezhi 太泛了,能具体点吗?
    Vegetable
        10
    Vegetable  
       2022-08-18 11:11:14 +08:00
    如果你说的是英语的词根词缀,感觉这是一个非常复杂的问题。英语并没有那么规则,想通过普遍的规则分解出词根来的难度,应该大于穷尽法。
    Jooooooooo
        11
    Jooooooooo  
       2022-08-18 11:14:57 +08:00
    如果是背单词不要这么搞.
    heganyuliang
        12
    heganyuliang  
       2022-08-18 11:20:31 +08:00
    如果目的语言是英语的话,没有必要,因为英语日耳曼语和罗曼语的混杂太厉害了,弄起来当然挺好玩,但是对提高自己英语水平应该帮助不大
    Morriaty
        13
    Morriaty  
       2022-08-18 11:29:40 +08:00
    NLP 领域有个 lemma / stem 的概念,大部分 nlp 包都有对应的功能,但这个基本是词干提取,我还真没见过词缀提取
    arvin01
        14
    arvin01  
    OP
       2022-08-18 11:33:33 +08:00
    我查了下资料,说几乎所有的英语单词都是由词根词缀组成的,但不管是中文圈还是英文圈,都没有查询单词词根词缀的工具,就很奇怪
    wowodavid
        15
    wowodavid  
       2022-08-18 11:34:06 +08:00
    英语的话比较难,主要是血统太不纯正了
    拉丁语的话(排除外来词,不多)可以做到
    seraphv3
        16
    seraphv3  
       2022-08-18 13:01:49 +08:00
    宋维刚的词霸天下课程,把按 3 万 8 千较高统计词频的单词进行了彻底的词根词缀拆分,我去年买来学了几个月,不过只学了前 200 个词根
    y1y1
        18
    y1y1  
       2022-08-18 14:40:12 +08:00
    因为实际上没啥用,大多数词根词缀对记忆单词都没有什么帮助,因为意思并不明确。
    可以看一下李平武老师写的关于这方面的几本书试试。。
    arvin01
        19
    arvin01  
    OP
       2022-08-18 14:54:08 +08:00
    @Morriaty 词干提取完了,是不是剩下的就是词缀了?
    arvin01
        20
    arvin01  
    OP
       2022-08-18 14:58:15 +08:00
    @seraphv3 这个在 GitHub 上看到了 PDF 版,文件好大,几十兆
    foufoufm
        21
    foufoufm  
       2022-08-18 15:20:37 +08:00
    唉,出发点如果是学好英语的话好像还不够,关键是用好英语来干嘛
    Morriaty
        22
    Morriaty  
       2022-08-18 19:22:32 +08:00
    @arvin01 # 19 不是,比如 wolves 的词干是 wolf 词缀是 ves ,两个相加并不是原词
    Howlaind
        23
    Howlaind  
       2022-08-19 07:33:39 +08:00 via Android   1
    如果是找词源可以看看下面的网站
    https://www.etymonline.com/
    marc2017
        24
    marc2017  
       2022-08-19 08:53:11 +08:00
    @arvin01 词根词缀词典啊,或者微信小程序高山词根,都是高伟东老师一个人做的。只不过看他坚持了这么多年,快被审核逼到无路可走了。唉。
    arvin01
        25
    arvin01  
    OP
       2022-08-19 10:33:10 +08:00
    @marc2017 谢谢,这个我找到了,也看到他说的了,唉
    关于     帮助文档     自助推广系统     博客   &nsp; API     FAQ     Solana     2988 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 13:42 PVG 21:42 LAX 05:42 JFK 08:42
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86