阻止电子邮件地址中的单词而不将它们放入数组中

时间:2018-02-17 18:26:12

标签: python classification spam

我试图在Andrew Ng的Stanford ML课程中重新实施垃圾邮件分类器,并使用了“PorterStemmer()'但阻止后的电子邮件是以列表形式

ps = PorterStemmer()

for i in range(len(just_emails)):
    words = word_tokenize(just_emails[i])
    just_emails[i] = [ps.stem(w) for w in words]
print(just_emails.split()

但我需要做的是阻止电子邮件中的字词,并将电子邮件保留为原始格式

实际输出:[go,until,jurong,point,crazi,avail,onli,...]

期望的输出:直到jurong point crazi avail onli

1 个答案:

答案 0 :(得分:0)

此表达式if (prev) prev->next = entry->next; else list_head = entry->next; 生成一个列表,这是一个Python数据结构。如果你just_emails.split()它,Python在屏幕上表示该数据结构是合理的。

如果您希望以其他形式显示,则必须说出您期望的形式。例如,如果您希望列表中的单词串在一起并用空格分隔,那么您实际上必须这样说。像这样:

print