Question

鉴于“大饮料，牛肉哈希，咖啡，墨西哥卷饼”这样的文字，我知道我可以用NLTK的Tweet Tokenizer来标记它，例如产生：

['Great',
 'drinks',
 ',',
 'beef',
 'hash',
 ',',
 'coffee',
 ',',
 'burritos',
 '.']

我想将逗号前面的每个部分和句点分别处理，以生成[Great drinks, beef hash, coffee, burritos]之类的列表。我该怎么做？

Answer 1

import re
s= "Great drinks , beef hash, coffee, burritos."
print (re.findall(r"[\w']+", s))

对于带有' - '（连字符）的单词

print (re.findall(r"([\w']+(?:\S-\S)?[\w'])+", s))

Answer 2

msg = "Great drinks , beef hash, coffee, burritos."
msg.translate(str.maketrans(",.", "  ")).split()

完成这项工作。