使用google_ngram_downloader阅读google ngrams

时间:2014-10-29 07:16:40

标签: python nlp

我正在使用 google_ngram_downloader 来阅读Google数据集。

代码:

from google_ngram_downloader import readline_google_store
fname, url, records = next(readline_google_store(ngram_len=1))
for x in range(0,5):
    print next(records)

这里我从0,1,... a,b,c .. z 开始逐个读取数据集下一个(readline_google_store(ngram_len = 1))逐个给出ngrams。我想直接读取'a','b'的数据集,不是一个一个。

必填:只读数据集,该数据集以字母'a'开头,具有 1-gram 数据集。

1 个答案:

答案 0 :(得分:1)

一种方法是明确添加indices。使用此行可以获得以 a 开头的长度为1的ngram。

fname, url, records = next(readline_google_store(ngram_len=1,indices='a'))