Question

我遇到以下脚本的问题，因为我无法获取每行的完整项目列表。我得到的是像FreqDist（{＆＃39;＃v＆＃39; 3，＆＃39;有＃v＆＃39;：2，＆＃39;得到＃v＆＃39;：2，＆＃ 39;公开＃r＆＃39;：1，＆＃39;沟通＃v＆＃39;：1，＆＃39;目标#n＆＃39;：1，＆＃39;结束#n＆＃39;：1，＆＃39;喜欢#v＆＃39;：1，＆＃39;处方#n＆＃39;：1，＆＃39;施肥#v＆＃39;：1，...}），FreqDist（{＆＃ 39;是＃v＆＃39;：2，＆＃39;有＃v＆＃39;：2，＆＃39;得到＃v＆＃39;：2，＆＃39; 20s #n＆＃39;：1，＆＃39;喜欢#v＆＃39;：1，＆＃39; school＃n＆＃39;：1，＆＃39;认为#v＆＃39;：1，＆＃39;我＃n＆＃39;： 1，＆＃39; go＃v＆＃39;：1，＆＃39; community＃n＆＃39;：1，...}），并不会报告每个出现1的单词。

from nltk import FreqDist
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer('\s+', gaps=True)
m = [FreqDist(tokenizer.tokenize(line)) for line in open('1_tagged_copy.txt')]
print m

解决方案：m = [FreqDist（tokenizer.tokenize（line））。items（）用于打开行（＆＃39; 1_tagged_copy.txt＆＃39;）

NLTK FreqDist不完整的字典

0 个答案: