如何使用node.js在div标签内部进行刮擦?

时间:2013-10-10 05:47:08

标签: node.js web-scraping

我正在看这样的事情:

<div class="f00" thing="??" other-thing="???"></div>

我想要?和???我完全陷入了困境。我尝试获取div中包含的所有html,但是在同一级别上有大量其他代码,所以我只是得到了一个我不需要的html墙。任何帮助将不胜感激。

2 个答案:

答案 0 :(得分:0)

您可以将jQuery与node.js一起使用,这样可以更轻松地使用DOM 有了它,你可以做像...这样的事情。

var thing = $('.f00').attr('thing');
var other-thing = $('.f00').attr('other-thing');

看一下jQuery api,以便更好地了解它可以做什么......它可以做很多事情。

修改
你需要安装jQuery。

npm install jquery

有关如何获取npm的说明here
有关node-jquery的更多信息,请查看github repository

希望它有所帮助:)

答案 1 :(得分:0)

您要查找的包是htmlparser2。我特别喜欢将它与cheerio一起使用,它是一种包装它并提供类似jQuery的功能。

您可以这样做:

$ = cheerio.load(yourHtml);
thing = $('.foo').attr('thing');
otherThing = $('.foo').attr('other-thing');