正则表达式提取html值

时间:2014-02-09 02:32:15

标签: html regex

我试图从谷歌搜索中编写小刮刀脚本,即时编写程序,蝙蝠有小问题我需要正则表达式从谷歌搜索中提取数据-href值,请帮帮我:

例如谷歌搜索的HTML代码:

data-href="www.buxmob.net/index.php?id=577">
data-href="www.webopedia.com/TERM/K/keyword.html">
data-href="moz.com/beginners-guide-to-seo/keyword-research">

只需要此值中的url,只需要:

hxxp://www.webopedia.com/TERM/K/keyword.html
hxxp://moz.com/beginners-guide-to-seo/keyword-research
hxxp://www.buxmob.net/index.php?id=577

谢谢你

1 个答案:

答案 0 :(得分:0)

您提供的所有示例均可与

匹配
(?:data-href=")(.*?)(?:">)

请参阅http://regex101.com/r/rB4nS1

上的演示

这并不意味着尝试用正则表达式解析(一般)html是个好主意 - 但有时候,当响应形成良好并且众所周知时,你就可以逃脱它。

请注意,您在字符串前面提到了hxxp:// - 这不是正则表达式的作用,而是属于您用于实现表达式的语言。以上是“非贪婪的匹配,从字符串data-href="开始,到下一个">结束