Question

我试图找到以下正则表达式来实现我的程序来解析给定的html文件。你能帮我解决这些问题吗？

<div>
<div class=”menuItem”> 
<span> 
class=”emph” 
Any string beginning with < and ending with >, i.e. all tags. 
The contents of the body tag.
The contents of all divs 
All divs that make menus

我已经设法找出单个div标签只是" < div >" 并且“所有标签表达式为<(\"[^\"]*\"|'[^']*'|[^'\">])*>

你认为你可以帮助我休息吗？提前谢谢你们......

我知道HTML解析是一个已经解决的问题，并且正则表达式效率不高，但要求我这样做，以便通过使它们（有时）长而详细来演示正则表达式如何工作。这就是为什么我只是将我所拥有的HTML文件作为一个简单的文本文件处理，我需要在其上应用这些正则表达式。

Answer 1

为了您自己的理智，请考虑使用HTML解析器库来处理您正在使用的语言。正则表达式不适合此应用程序 - 它们无法可靠或干净地处理HTML等结构化数据。

https://stackoverflow.com/a/1732454/457201

HTML的正则表达式

1 个答案: