基于列表对单词进行标记

时间:2018-04-30 12:55:47

标签: python nltk tokenize

我要求根据特定的单词列表对句子中的单词进行标记。

wordlist = ["nlp - nltk", "CIFA R12 - INV"]

示例输入:这是nlp - nltk CIFA R12 - INV的示例文本。

在使用word_tokenize(Exapmle-input)时,我需要nlp - nltk作为一个标记,CIFA R12 - INV作为另一个标记。这是否可能而不是将nlp - CIFA作为不同的令牌?

1 个答案:

答案 0 :(得分:1)

对于将来来这里的人: -
经过一些阅读,我发现nltk.tokenize.mwe模块是实现我上述要求的选项。

参考:http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe

相关问题