使用Python从nltk树结构中提取特定叶值

时间:2013-05-06 21:51:42

标签: python tree nltk

我对NLTK的树函数有一些疑问。我试图从树结构中提取某个单词,就像下面给出的那样。

test = Tree.parse('(ROOT(SBARQ(WHADVP(WRB How))(SQ(VBP do)(NP (PRP you))(VP(VB ask)(NP(DT a)(JJ total)(NN stranger))(PRT (RP out))(PP (IN on)(NP (DT a)(NN date)))))))')

print "Input tree: ", test
print test.leaves()

(SBARQ
    (WHADVP (WRB How))
    (SQ
      (VBP do)
      (NP (PRP you))
      (VP
        (VB ask)
        (NP (DT a) (JJ total) (NN stranger))
        (PRT (RP out))
        (PP (IN on) (NP (DT a) (NN date)))))))

['How', 'do', 'you', 'ask', 'a', 'total', 'stranger', 'out', 'on', 'a', 'date']

我可以使用leaves()函数找到所有单词的列表。有没有办法获得特定的叶子?例如:我想从NP短语中获取第一个/最后一个名词?第一个名词的答案是“陌生人”,而最后一个名词的答案是“日期”。

1 个答案:

答案 0 :(得分:11)

虽然名词短语可以嵌套在其他类型的短语中,但我相信大多数语法总是在名词短语中使用名词。所以你的问题可以改为:你如何找到第一个和最后一个名词?

您可以简单地获取所有tuple个单词和POS标签,并按此过滤

>>> [word for word,pos in test.pos() if pos=='NN']
['stranger', 'date']

在这种情况下只有两个,所以你已经完成了。如果您有更多名词,则只需在[0][-1]上对列表编制索引。


如果您正在寻找可以在不同短语中使用的另一个POS,但您只想在特定的短语中使用它,或者您有一个允许在NP之外使用名词的奇怪语法,您可以执行以下操作... < / p>

您可以通过

找到subtrees 'NP'
>>> NPs = list(test.subtrees(filter=lambda x: x.node=='NP'))
>>> NPs
[Tree('NP', [Tree('PRP', ['you'])]), Tree('NP', [Tree('DT', ['a']), Tree('JJ', ['total']), Tree('NN', ['stranger'])]), Tree('NP', [Tree('DT', ['a']), Tree('NN', ['date'])])]

继续缩小子树,我们可以使用此结果查找'NN'个单词,

>>> NNs_inside_NPs = map(lambda x: list(x.subtrees(filter=lambda x: x.node=='NN')), NPs)
>>> NNs_inside_NPs
[[], [Tree('NN', ['stranger'])], [Tree('NN', ['date'])]]

因此,这是listlist个短语中所有'NN''NP'的{​​{1}}。在这种情况下,每个短语中恰好只有零个或一个名词。

现在我们只需要浏览'NP'并获取所有leaves个人名词(这实际上意味着我们只想访问'stranger' Tree('NN', ['stranger'])部分}})。

>>> [noun.leaves()[0] for nouns in NNs_inside_NPs for noun in nouns]
['stranger', 'date']