将段落拆分成句子

时间:2013-05-26 18:12:35

标签: javascript text-segmentation

给定一个段落,我想把它分成句子。目前我只是这样做:

var sentences = paragraph.split('.');

它在很大程度上起作用,但是在给出这样的句子时开始失败:

  

阿拉斯加州是美国最大的州。

由于U.S.有句点,因此它会将S解析为句子。

确定段落中句子的最佳方法是什么?我考虑过根据国会大厦字母前的最后一段时间解析它们,但如果段落输入不好(句点后面的小写字母),那么它也会失败

1 个答案:

答案 0 :(得分:0)

我首先通过拆分空格将段落标记为单词。然后重新组合句子,寻找以句号,问号和感叹号结尾的单词。如果它在一段时间内结束,请检查该单词是否包含多个句点 - 如果是,则它是缩写而不是句子的结尾。