标记,分隔标记由标点符号分割

时间:2017-04-24 13:24:00

标签: python list nltk tokenize

鉴于“大饮料,牛肉哈希,咖啡,墨西哥卷饼”这样的文字,我知道我可以用NLTK的Tweet Tokenizer来标记它,例如产生:

['Great',
 'drinks',
 ',',
 'beef',
 'hash',
 ',',
 'coffee',
 ',',
 'burritos',
 '.']

我想将逗号前面的每个部分和句点分别处理,以生成[Great drinks, beef hash, coffee, burritos]之类的列表。我该怎么做?

2 个答案:

答案 0 :(得分:1)

import re
s= "Great drinks , beef hash, coffee, burritos."
print (re.findall(r"[\w']+", s))

对于带有' - '(连字符)的单词

print (re.findall(r"([\w']+(?:\S-\S)?[\w'])+", s))

答案 1 :(得分:0)

msg = "Great drinks , beef hash, coffee, burritos."
msg.translate(str.maketrans(",.", "  ")).split()

完成这项工作。