unicode字符串中的正则表达式

时间:2008-12-11 19:37:45

标签: python regex

我想要使用正则表达式清理一些unicode文本。例如,我的情况是u'(2'。这是因为格式化原因,关闭的paren最终会出现在相邻的html单元格中。我对此问题的初步解决方案是展望下一个单元格的内容并使用字符串函数确定它是否持有关闭paren。我知道这不是一个很好的解决方案,但它确实有效。现在我想修复它,但我似乎无法使正则表达式工作。

missingParen=re.compile(r"^\(\d[^\)]$")

我对我的想法的理解:
^在字符串的开头我想找到
(一个开放的paren,paren必须被反击,因为它是一个特殊的角色 \ d我也想找一个数字
[我正在创建一个特殊的角色类 ^我不想找到下面的内容 )这是一个亲密的人 字符串末尾的$

当然情节变粗我做了一个愚蠢的假设,因为我放了一个\ d我不会找到(33但我错了所以我在我的正则表达式中添加了{1}并且没有帮助,它匹配(3333,所以我的问题比我想象的要复杂。我希望字符串只是一个开放的字符和一个数字。这是更聪明的方法

missingParen=re.compile(r"^\(\d$")

请注意S Lott _I已标记为初学者,因此您无法获得任何便宜点并非我不理解您的见解我一直有意阅读您的书,它可能有答案

1 个答案:

答案 0 :(得分:1)

好的抱歉,使用这是一个意识流思维刺激器,但似乎写出我原来的问题让我走上了正轨。在我看来,这是我想要做的解决方案:

  missingParen=re.compile(r"^\(\d$")