Question

好的，所以我一直在使用从Sourceforge免费下载的simple_html_dom.php。我想抓一些网站，但这些网站很旧，一个是2009年，而且编码很差。这个php文件（simple_html_dom）使用DOMDocument和那些东西，所以当你搜索某些东西时，你可以通过标签名称，属性或其他东西来搜索它。现在，我有一个div元素，里面有随机文本，然后是其他元素。

<div id="rcontent">
    <font size = 3>
      Random text going here cuz I'm a poor coder and I made it hard for scraping<br><br>

      <a href="One.xls">Text.</a>
      <a href="Two.test.txt">Text2.</a>
      <a href="Three.pdf">Text3</a><br><br>......
   </font>
</div>

如何在此锚标记之前提取此文本？当我使用内部文本之类的东西时，我会得到整个div，而我却不希望这样。有什么建议？提前谢谢。

使用php抓取编码不佳的网站

0 个答案: