NLTK库的工作速度非常慢

时间:2016-01-10 12:26:13

标签: python nlp nltk packages

我已经在两台计算机上安装了NLTK库,其中一台工作得相当好(它在大约1分钟内处理了大约1000个句子),而在我的另一台计算机上则需要1分钟才能完成10句话。

说我的第二台电脑更快,所以它与我的第二台电脑无关。

这是我安装它的方式:

pip install nltk

然后,我运行python

在python终端中:import nltk

然后,ntlk.download()

它说我有一些过时的全语料库(我不知道为什么),但似乎只有这一个:PanLex Lite Corpus,我认为与我没有任何关系问题....而另一个没有安装:Cross-Framework and Cross-Domain Parser Evaluation Shared Task。我不知道是否可以做些什么......

这些是我正在使用的模块:

from nltk import pos_tag
from nltk import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer

他们的工作非常慢......

有谁知道为什么并知道如何解决它?

1 个答案:

答案 0 :(得分:4)

WordNetLemmatizer可能是罪魁祸首。 Wordnet需要从几个文件中读取才能工作。有许多文件访问操作系统级别的东西可能会妨碍性能。考虑使用另一个变形器,查看慢速计算机的硬盘驱动器是否有故障或尝试对其进行碎片整理(如果在Windows上)

相关问题