Question

我正在尝试使用python创建一种数据挖掘器。我要研究的是希腊语词典。这个词典最初是PDF格式的，我把它变成了一个粗略对应的HTML格式，以便更容易地解析它。由于数据结构严重失真，我已对其进行了一些进一步的格式化。

我目前的任务是找到并单独存储单个单词及其说明。因此，首先想到的是，除了描述之外，首先要识别出这些词。单词空间的标题具有非常特定的语法，我使用它来创建相应的正则表达式以匹配它们中的每一个。

但是有一个问题。尽管到目前为止我已经对HTML做了格式化，但仍有许多点，其中一系列逻辑数据被序列＆lt; / BR＆GT;然后是换行符，随机顺序。是否有任何方法可以指示我的正则表达式“忽略”该序列，即在满足时将某个序列视为不存在，从而包括那些被它中断的匹配？

即没有放一个（＆lt; br /＆gt; \ n）？在我的RE的每个部分，涵盖所有可能的情况。

我使用的正则表达式如下：

(ο|η|το)?( )?<b>([α-ωάέήίόύώϊϋΐΰ])*</b>(, ((ο|η|το)? <b>([α-ωάέήίόύώϊϋΐΰ])*</b>))*( \(.*\))? ([Α-Ω])*\.( \(.*\))?<b>:</b>

并且当数据没有被上面给出的序列中断时，匹配很好。

在不理解的情况下，问题在于中断序列可以在匹配中的任何地方发生，因此我正在寻找除了覆盖可能发生序列的每个点的方法（忽略序列以决定是否正如我之前解释的那样，是否返回一场比赛。

Answer 1

你要求的是一个不同的正则表达式。

新的正则表达式将是旧的正则表达式，在每个非量词字符后面都有(<br\s*?/>\n?)?等。

你可以写一些东西来将正则表达式转换成你正在寻找的形式。它会占用你现有的正则表达式并产生一个容忍正则表达式。正则表达式语法中没有构造可以自动为您执行此操作。

我认为更容易做的是将源文档置换为不包含您想要忽略的序列。这应该是一个简单的文本替换。

如果不是明确使用<b>标签来表示意义，那么另一种选择就是只使用纯文本文档内容而不是HTML内容。