从动态网页中提取文本

时间:2013-05-25 10:31:48

标签: php javascript jquery web

我的需要是,如果我获得了一个网页的URL,我将从中提取所有文本。现在有网页的情况,当你像fb时间轴一样向下滚动它们时,它会进一步加载。我怎样才能以编程方式从这些网页中提取文本?任何想法/例子?

2 个答案:

答案 0 :(得分:1)

从网页上获取动态加载的内容变得越来越复杂。

一个建议是,打开浏览器开发人员面板并查看网络选项卡。如果您可以破译AJAX调用背后的逻辑,那么您可以自己调用这些URL,例如使用PHP file_get_contents。类似于http://url.com/morecontent.php?offset=20

另一个建议是使用像phantom.js这样的无头浏览器,它包含一个自己的javascript引擎,并且可以以编程方式控制 - http://phantomjs.org/

答案 1 :(得分:-2)

您可以使用cURL。这是示例代码。

Get data or Content from a URL using cURL PHP

相关问题