从格式化字符串生成重新模式

时间:2013-01-29 17:26:56

标签: python regex

我需要从已经格式化的字符串生成字符串正则表达式(或至少是格式字符串)。这是怎么做到的?

我的用例:我传递了一个名为“收集的东西(第3部分).doc ”的文档标题,需要找到所有相关的文档(例如part1,part2和part3)。复杂的是文档可以被称为非常古老的收集内容[第2部分] .txt ,甚至杂项内容,第4卷 .doc **

有一种简单的方法吗?在python中获得奖金。

感谢。肯特

1 个答案:

答案 0 :(得分:0)

逻辑上,您如何将原始字符串与您想要匹配的字符串相关联?原始字符串的哪一部分存在于其他部分中,它们有什么共同之处?要想出一个足以覆盖所有基础的程序,这是非常困难的,这是可靠的。

我认为你最好的选择是提出一个首选匹配的层次结构。

例如,如果您从“收集的内容(第3部分).doc”开始,您可能希望在开始尝试之前尝试匹配包含不在括号中的所有内容的内容根据卷号匹配东西。

非常古老的收集内容[第2.txt 不是比杂项更好的匹配,vol 4.doc