Question

大家好我真的需要帮助。客户端想要替换xml标记中的某些字符串。 XML看起来如下，有数千个这样的节点。我需要匹配来自=＆gt;的部分＆LT; tuv xml：lang =“en-US”＆gt;＆lt; seg＆gt; ac0037018＆lt; / seg＆gt;包括换行。

<tu tuid="2" srclang="en-US">
      <tuv xml:lang="en-US">
        <seg>ac0037018</seg>
      </tuv>
      <tuv xml:lang="da-DK" creationdate="20130211T114451Z" 
      <seg>some text</seg>
      </tuv>
  </tu>
  <tu tuid="3" srclang="en-US">
      <tuv xml:lang="en-US">
        <seg>Ball valves</seg>
      </tuv>
      <tuv xml:lang="da-DK" creationdate="20110801T083108Z"  >           
      <seg>Kugleventiler</seg>
      </tuv>
</tu>

但是我的正则表达式匹配整个xml而不是一次的实例。你能帮忙吗？

(<tuv xml:lang="en-US">)(\r\n.*)(<seg>.*?)any text(.*?</seg>)

Answer 1

您可以使用以下正则表达式：

<tuv xml:lang="en-US">\s*<seg>(.+?)<\/seg>(\s*\n)

它会捕获tuv / seg个片段。

我认为，你使用了太多的捕获组。唯一合理的捕获组是seg元素的内容。

请注意：

我的正则表达式中唯一的捕获组在?之后包含+ （不情愿版本），以防止捕获太多。如果你有你的理由，添加任何其他捕获组。

/

seg

\

\s也匹配\n或\r。
您希望捕获文本包括换行符（在整体中）匹配），所以我的正则表达式的最后一部分是：
- 一系列任意“白色”字符（可能存在于之前）行），
- 您想要包含在比赛中的换行符。
或许您想要捕捉tuv和seg之间的换行符打开标签？如果是这种情况，请删除最后一部分。

正则表达式仅使用换行符匹配节点一次

1 个答案: