Question

为什么是grep -noE'＆lt; math＆gt;。*＆lt; / math＆gt;'匹配

＆lt; math＆gt; w＆lt; / math＆gt;，来自一组＆lt; math＆gt; w＆lt; / math＆gt; 特殊二进制分数，＆lt; math＆gt; V_i，i = 1,2，\ dots， W＆LT; /数学＆GT;叫方向号。 [[格雷码]]的位使用＆lt; math＆gt; i＆lt; / math＆gt;，＆lt; math＆gt; G（i）＆lt; / math＆gt;，选择方向号。获取Sobol序列值＆LT;数学＆GT; S_I＆LT; /数学＆GT;取二进制的[[exclusive or]] ＆lt; math＆gt; i＆lt; / math＆gt;格雷码的值随着适当的方向号码。所需的尺寸数量影响＆lt; math＆gt; V_i＆lt; / math＆gt;的选择 37196767：其中数学＆GT; \ int_0 ^ 1 f（u）\，du \ approx \ frac {1} {N} \，\ sum_ {i = 1} ^ N f（x_i）。＆LT; /数学＆GT;

我只想让每个元素独立，而不是贪婪。

Answer 1

您需要指定非贪婪版本：.*?，但grep正则表达式不支持它。

如果您使用GNU grep，则可以使用-P选项（或--perl-regexp）：

grep -noP '<math>.*?</math>'

Answer 2

使用：

grep -noE '<math>[^<]*</math>'

不是在<math>和</math>之间匹配任何序列，而是在序列中不允许<，因此它不允许</math>在内部。{ / p>

它也不会允许任何其他标签，但看起来这对您的文字来说不是问题。

如果您使用的是支持PCRE的工具，则可以使用非贪婪的正则表达式：

<math>.*?</math>

标准版grep不使用PCRE，但如果您使用GNU grep，则可以使用-P选项。

Answer 3

由于.*是贪婪的，因此它会从首次找到的<math>到最后找到的</math>匹配

为什么正则表达式匹配此文本？

3 个答案: