在php / web scraping中删除字符串的特定部分

时间:2016-10-03 21:38:38

标签: php html string dom web-scraping

<div class="description">
    <span>Product Code:</span>
    " CODE"<br>
    <span>Availability:</span>
    " In Stock"
</div>

我正在尝试使用简单的html dom库来抓取一个网站,但我遇到了一个问题,因为我需要的部分是在标签之外且没有id / class。

从上面的代码。我需要的只是产品代码(CODE)。

我试着在课堂上学习:

$code=$html->find('.description')[0]->plaintext;

这就是我得到的:

  

产品代码:CODE可用性:库存

我要问的是如何删除Product Code:Availability: In Stock,以便我的$代码中存储的内容仅为CODE。

注意:CODE是动态的,并且会针对每个项目进行更改。如果你们可以为我提供替代解决方案,就像另一种方法来定位没有tag,id,class的HTML数据一样,我们将非常感激。

2 个答案:

答案 0 :(得分:0)

删除div.description子跨度,你应该好好去。

编辑:MarcB在我面前发布了一分钟。干得好,对他充满信心。

答案 1 :(得分:0)

也许类似于!span来排除不需要的内容

试试.description [!span]

相关问题