使用php抓取编码不佳的网站

时间:2016-01-26 14:50:35

标签: php html web-scraping

好的,所以我一直在使用从Sourceforge免费下载的simple_html_dom.php。我想抓一些网站,但这些网站很旧,一个是2009年,而且编码很差。这个php文件(simple_html_dom)使用DOMDocument和那些东西,所以当你搜索某些东西时,你可以通过标签名称,属性或其他东西来搜索它。现在,我有一个div元素,里面有随机文本,然后是其他元素。

<div id="rcontent">
    <font size = 3>
      Random text going here cuz I'm a poor coder and I made it hard for scraping<br><br>

      <a href="One.xls">Text.</a>
      <a href="Two.test.txt">Text2.</a>
      <a href="Three.pdf">Text3</a><br><br>......
   </font>
</div>

如何在此锚标记之前提取此文本?当我使用内部文本之类的东西时,我会得到整个div,而我却不希望这样。有什么建议?提前谢谢。

0 个答案:

没有答案
相关问题