提取完整的Html源,而不是部分

时间:2013-03-10 16:55:10

标签: c# visual-studio webbrowser-control extract html-agility-pack

我正在尝试从以下网站http://bit.ly/16jFeyA

中提取图片和一些文字

Web Form,C#,Visual Studio,HtmlAgilityPack

编码仅适用于WebClient,浏览器wb.Document.Encoding = "GB2312";不起作用,不重要。

该网站使用Lazy Load,用于图片。 WebBrowser正确加载,带有信息的图像但是当我使用web客户端/ wb.DocumentText提取时,它不会下载"完整信息"一些信息丢失,特别是图像链接等。

这周围有吗?我正在尝试提取图像和产品信息。

向下滚动后使用wb.DocumentText提取以强制加载图片(由于延迟加载) - http://notepad.cc/share/EjW3tFCffO

wb = webBrowser

提前致谢!

1 个答案:

答案 0 :(得分:2)

您需要使用知道如何评估和执行客户端JavaScript的东西,例如无头浏览器。 PhantomJS应该足够了。

相关问题