从网站提取元数据

时间:2011-06-16 18:28:50

标签: javascript html regex tags metadata

我想知道javascript中是否有一种方法允许我处理允许我取出我想要的特定标签的html源代码?

很抱歉,如果听起来容易或太简单。我是编程新手。

2 个答案:

答案 0 :(得分:0)

使用DOM,如果您知道结构,它可以从网页中提取数据。

答案 1 :(得分:0)

如果您在字符串中包含HTML,则可以使用:

var str = '<html></html>'; // your html text goes here
var div = document.createElement('div');
div.innerHTML = str;
var dom = div.firstChild; // dom is the object you want,
                          // you can manipulate it using standard dom methods

或者,使用jQuery。 jQuery是一个帮助您更轻松地操作和访问HTML元素的库。首先,将其添加到文档的头部:

<script type="text/javascript" src="https://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js"></script>

这是对jQuery库的引用。然后,做:

var foo = $("<html>Your html here</html>");

或者,如果您的html位于变量(例如str)中,您可以执行以下操作:

var foo = $(str);

然后,您可以通过多种方式操作和解析foo。例如,要删除所有段落元素,请使用

foo.remove('p');

或者,要删除id =“bar”的段落元素,请使用:

foo.remove('p.bar');

完成修改后,您可以使用以下命令获取新的html文本:

foo.html();

为什么你的html在字符串中?这不是当前页面的HTML吗?