
打了一大段话,各种符号任意使用,换行不换行随意。如何把这一段话断句? (多分享点 java 的最好~
1 Mac 2019-03-05 23:22:48 +08:00 via Android 去看看锤子大爆炸,好像提过用的谁家的 API |
2 youngxhui 2019-03-05 23:28:58 +08:00 via Android 你是说分词吗? hanlp 这个库不错 JAVA 的 |
3 c4f36e5766583218 OP |
4 c4f36e5766583218 OP 第 1 条附言打错了,是“就是把一大段话分成若干个句子” |
5 Maboroshii 2019-03-06 00:28:06 +08:00 via iPad 枚举所有的标点符号自己写一个不就是了。。 |
6 c4f36e5766583218 OP @Maboroshii 这很弱吧,(至少得带点语义分析吧。都 9102 年了 |
7 c4f36e5766583218 OP NLPchina/nlp-lang,就是通过标点符号分句的。剔除!!! |
8 c4f36e5766583218 OP |
9 xuanwu 2019-03-06 02:08:26 +08:00 如#5 所言. 先举些不能通过标点分句的例子吧, 否则很难理解你的需求. 如果有实用目的, 欢迎在这里开 issue: https://github.com/program-in-chinese/house_of_10000_business |
10 Iamnotfish 2019-03-06 02:32:49 +08:00 via iPhone 结巴断句? |
11 theks 2019-03-06 02:38:20 +08:00 via iPhone 只考虑开源的吗?商用的也可以看看。我用过百度的 nlp 处理语义分析,关键词提取之类的,如果需求不复杂是可以用的。 |
12 c4f36e5766583218 OP @theks 那个好像是提取摘要 @Iamnotfish 结巴能断句 @xuanwu 比如发了条微博,一大段话只使用了逗号,需要把它拆分成几个句子(split,至于哪个逗号 split 哪个逗号不 split 由程序处理了)。 |
13 xuanwu 2019-03-06 11:13:16 +08:00 @c4f36e5766583218 哦, 听起来是要判断哪几段短句是构成一个完整句子, 比如说, 我这句话, 就只有两句? 1. 哦, 听起来是要判断哪几段短句是构成一个完整句子. 2. 比如说, 我这句话, 就只有两句? 感觉比分词来的更主观, 难度估计更大吧. |
14 c4f36e5766583218 OP @xuanwu 感觉是,我后来往深了想了想,一段话有上下文联系的,要有语义分析的断句还真蛮复杂的 |
15 c4f36e5766583218 OP 好吧,貌似我搜到的 3 个 github 项目都是通过标点符号断句的~~~~。(散了散了 |