基于拉丁语的语言分割语法规则

时间:2010-05-12 06:10:19

标签: language-agnostic nlp

我正在开发一项功能,即为拉丁语言(目前是英语)应用语言分词规则(语法)。

目前我处于打破用户输入句子的阶段。

e.g.:

"I am working in language translation". "I have used Google MT API for this"

在上面的例子中,我将完全停止句子(。)这是正常的情况,我在点上打破句子,但是有多个字符用于打破句子,如(。!?etc)。

我遵循SRX规则进行细分。

我的问题是: -

1)是否有任何参考?可用于解析我的语言细分规则。

2)或者是否有任何关于语言细分的论坛?,以便我能够有效地讨论

如果有人知道,请告诉我?

非常感谢。

2 个答案:

答案 0 :(得分:1)

你可能想看看Reynar和Ratnaparkhi的论文A Maximum Entropy Approach to Identifying Sentence Boundaries(1997)。

<强>抽象

我们提出了一种可训练的识别模型 原始文本中的句子边界。特定 用句子边界注释的语料库, 我们的模型学会对每个事件进行分类 。,?和/作为有效或无效 句子边界。培训程序 不需要手工制作的规则,lexica, 词性标签或特定领域 信息。因此,该模型可以 对任何类型的英语都很容易训练 应该可以训练任何其他Romanalphabet 语言。性能可比 达到或优于表现 类似的系统,但我们强调简单 重新培训新域名。

他们生成的句子分段符称为 MxTerminator ,可用here

答案 1 :(得分:0)

在语言学期刊上似乎有大量关于此的文献......

这是一个关于这个问题的好报告,希望它可以帮到你 http://repository.upenn.edu/cgi/viewcontent.cgi?article=1068&context=ircs_reports

尼科