Question

我正在使用spacy预处理数据以进行情绪分析。

我想做的是：

1）引理化
2）对词形词进行POS标记

但是，当spacy在调用解析器时立即执行所有进程时，它会进行两次所有计算。是否有禁用非必要计算的选项？

Answer 1

查看语言。调用方法，了解各种流程如何按顺序应用。没有多少 - 它基本上是：

doc = nlp.tokenizer(text)
nlp.tagger(doc)
nlp.parser(doc)
nlp.entity(doc)

如果你需要一个不同的序列，你应该编写自己的函数来将它们串联起来。

但是，我不确定你的问题是否有意义。如果将POS标记符应用于词形文本，则统计模型可能不会很好地执行。屈折后缀是重要的特征。