什么是最准确的句子分裂开源工具?

时间:2011-03-14 16:48:17

标签: parsing nlp tokenize

我需要将文本拆分成句子。我正在玩OpenNLP的句子检测工具。我也听说过NLTK和Stanford CoreNLP工具。什么是最准确的英语句子检测工具?我不需要太多的NLP功能 - 只是一个很好的句子分割/检测工具。

我也听说过Lucene ......但这可能太多了。但如果它有一个kick-ass句子检测模块,那么我将使用它。

3 个答案:

答案 0 :(得分:2)

NLTK包含this paper中描述的Punkt tokenizer的实现。我不知道它是否是绝对最好的,但它非常好,它重量轻,易于使用,而且它是免费的。

答案 1 :(得分:1)

检查lingpipe实施http://alias-i.com/lingpipe/docs/api/com/aliasi/sentences/IndoEuropeanSentenceModel.html

他们的模型非常强大且易于实现 - 在任何可能的句子分割中检查几个前/后规则(也称为regexps),这就是全部。我发现它比GATE和OpenNLP更好用。

还有另一个支持这种启发式模型的开源项目,例如http://code.google.com/p/graph-expression/wiki/SentenceSplitting

答案 2 :(得分:-4)

Perl是一种文本处理语言,是文本挖掘的优秀且简单的资源。完成句子分割绝对没问题。

www.perl.org