在nltk正则表达式中包含单词

时间:2014-11-09 12:27:11

标签: python nltk

NLTK正则表达式适用于以下标记:

<DT>? <JJ>* <NN>*

有没有办法在正则表达式中包含单词? IE:"<N> <such> <as> <N> <and> <N>"

1 个答案:

答案 0 :(得分:2)

我记得<DT>? <JJ>* <NN>*是一个大块模式。并使用tag_pattern2re_pattern()函数将块模式内部转换为正则表达式:

>>> from nltk.chunk import tag_pattern2re_pattern
>>> tag_pattern2re_pattern('<DT>?<NN.*>+')
'(<(DT)>)?(<(NN[^\\{\\}<>]*)>)+'

然后你可以将你的单词放在正则表达式模式结果中。