我正在使用spacy预处理数据以进行情绪分析。
我想做的是:
1)引理化
2)对词形词进行POS标记
但是,当spacy在调用解析器时立即执行所有进程时,它会进行两次所有计算。是否有禁用非必要计算的选项?
答案 0 :(得分:3)
查看语言。调用方法,了解各种流程如何按顺序应用。没有多少 - 它基本上是:
doc = nlp.tokenizer(text)
nlp.tagger(doc)
nlp.parser(doc)
nlp.entity(doc)
如果你需要一个不同的序列,你应该编写自己的函数来将它们串联起来。
但是,我不确定你的问题是否有意义。如果将POS标记符应用于词形文本,则统计模型可能不会很好地执行。屈折后缀是重要的特征。