资源'语料库/停用词'未找到

时间:2017-08-02 08:52:13

标签: python-3.x proxy nltk

我正在尝试从nltk.corpus导入停用词。因为我遇到代理问题,所以我无法使用nltk.download('停用词')。我试图手动导入停用词。所以这就是我所做的。我从github.com下载了nltk_data,并使用nltk.data.path配置了适当的路径。但是,当我尝试顶级运行此代码时:

import nltk
from nltk.corpus import stopwords
print(stopwords.words('english'))

我收到这样的错误。

 >Resource 'corpora/stopwords' not found.  Please use the NLTK
 >Downloader to obtain the resource:  >>> nltk.download()
 >Searched in:
 -'C:\\Program Files\\Anaconda3\\Lib\nltk_data'

我的所有nltk数据都出现在上面的路径中,而corpora文件夹也有停用词。正如我上面所说,我不能使用nltk.download()。我在这里错过了什么吗?

更新1

我重置了所有spyder设置并再次运行此代码。:

    import nltk
    from nltk.corpus import stopwords
    print(stopwords.words('english'))

我收到如下错误:

LookupError: 
**********************************************************************
  Resource 'corpora/stopwords' not found.  Please use the NLTK
  Downloader to obtain the resource:  >>> nltk.download()
  Searched in:
    - 'C:\\Users\\586594/nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - 'C:\\Program Files\\Anaconda3\\nltk_data'
    - 'C:\\Program Files\\Anaconda3\\lib\\nltk_data'
    - 'C:\\Users\\586594\\AppData\\Roaming\\nltk_data'
**********************************************************************

所有我的nltk数据都出现在他" C:\ Program Files \ Anaconda3 \ nltk_data"和语料库目录有停用词。

2 个答案:

答案 0 :(得分:1)

您使用Python命令设置nltk_data路径,不是吗?仔细查看错误消息中的路径:

  

-'C:\\Program Files\\Anaconda3\\Lib\nltk_data'

路径组件之间的反斜杠加倍,除了最后一个; 您的路径中有一个字面换行符(\n)。为了避免这样的意外,始终在您编写Windows路径时使用原始字符串。 E.g。

nltk.data.path.append(r"C:\Program Files\Anaconda3\Lib\nltk_data")

答案 1 :(得分:0)

我通过导入nltk并从中下载“停用词”来解决此问题。

import nltk nltk.download('stopwords')