如何使用HtmlAgility pack

时间:2016-06-17 09:18:57

标签: web-scraping web-crawler html-agility-pack

我正在尝试使用HtmlAgility包从具有类似内容的页面(购物网站)中抓取数据。

有一个按钮可以加载更多由标签设计的项目。点击它会在同一页面上加载更多项目。

如果它是使用标签设计的,那么我将使用标签中的href属性URL获取下一个项目,并且我将为新的下一个项目加载新页面,所以没问题。

但是这里没有新的URL和项目加载在同一页面上。

那么有没有办法实现这个功能?如何触发加载更多按钮以获取更多项目?

1 个答案:

答案 0 :(得分:0)

HtmlAgilityPack仅是一个HTML解析器,它只知道解析静态html文档。您想要的是使用selenium web driver完成的。

另一种可能性是 - 如果项目加载操作的数量是这样的,您可以手动完成加载 - 这样做并在本地保存生成的html,然后才使用HtmlAgiliyPack来解析您在本地存储的静态html (而不是解析http响应)。

分享您正在谈论的网站的链接,以便我可以添加一些代码段来举例说明。

相关问题