HTML的正则表达式

时间:2012-03-01 13:14:26

标签: html regex parsing

我试图找到以下正则表达式来实现我的程序来解析给定的html文件。你能帮我解决这些问题吗?

<div>
<div class=”menuItem”> 
<span> 
class=”emph” 
Any string beginning with < and ending with >, i.e. all tags. 
The contents of the body tag.
The contents of all divs 
All divs that make menus

我已经设法找出单个div标签只是" < div >" 并且“所有标签表达式为<(\"[^\"]*\"|'[^']*'|[^'\">])*>

你认为你可以帮助我休息吗? 提前谢谢你们......

我知道HTML解析是一个已经解决的问题,并且正则表达式效率不高,但要求我这样做,以便通过使它们(有时)长而详细来演示正则表达式如何工作。这就是为什么我只是将我所拥有的HTML文件作为一个简单的文本文件处理,我需要在其上应用这些正则表达式。

1 个答案:

答案 0 :(得分:4)

为了您自己的理智,请考虑使用HTML解析器库来处理您正在使用的语言。正则表达式不适合此应用程序 - 它们无法可靠或干净地处理HTML等结构化数据。

https://stackoverflow.com/a/1732454/457201