如何在Python中将中文段落拆分为句子?

时间:2018-11-14 11:04:57

标签: python chinese-locale

由于中文与英文不同,因此如何将中文段落拆分为句子(使用Python)?中文段落示例为

  

我是中文一致,如何为我分句呢?我的一致是“先谷歌搜索,再来问问题”,我已经搜索了,但是没找到好的答案。

据我所知

from nltk import tokenize
tokenize.sent_tokenize(paragraph, "chinese")

不起作用,因为tokenize.sent_tokenize()不支持中文。

我通过Google搜索找到的所有方法都依赖于正则表达式(例如

re.split('(。|!|\!|\.|?|\?)', paragraph_variable)

)。这些方法还不够完善。似乎没有一个正则表达式模式可以用来将中文段落正确地分成句子。我猜应该有一些学习的模式可以完成这项任务。但是,我找不到它们。

0 个答案:

没有答案