如何将包含重复字母的单词恢复为原始英语格式?

时间:2019-02-11 00:13:29

标签: python-3.x nlp

当前,我正在从事项目“ Twitter Sentimental Analysis”。我遇到了一个问题,我需要还原包含重复字母的单词。例如,将“ coooooool”替换为“ cool”。我曾考虑过使用正则表达式,但是要还原的单词数量更多。您能提供一种解决我的问题的方法吗?

1 个答案:

答案 0 :(得分:0)

我建议您寻找类似pyenchant的库,但是对于您的确切要求,这是一个代码段。它不会完全按照您的意图进行操作,但是会将所有多次出现的字符转换为单个字符。那么您可以使用字典来替换/忽略正确的单词。

clean_words=[]    
for w in words:
    w = re.sub(r'[^\w\s]|(.)(?=\1)', '', w)
    clean_words.append(w)

正如我在looooove变成love时提到的,它也会使coolcol。对于像cool这样的单词,您将需要查找或字典来忽略处理。