<div class="description">
<span>Product Code:</span>
" CODE"<br>
<span>Availability:</span>
" In Stock"
</div>
我正在尝试使用简单的html dom库来抓取一个网站,但我遇到了一个问题,因为我需要的部分是在标签之外且没有id / class。
从上面的代码。我需要的只是产品代码(CODE)。
我试着在课堂上学习:
$code=$html->find('.description')[0]->plaintext;
这就是我得到的:
产品代码:CODE可用性:库存
我要问的是如何删除Product Code:
和Availability: In Stock
,以便我的$代码中存储的内容仅为CODE。
注意:CODE是动态的,并且会针对每个项目进行更改。如果你们可以为我提供替代解决方案,就像另一种方法来定位没有tag,id,class的HTML数据一样,我们将非常感激。
答案 0 :(得分:0)
删除div.description子跨度,你应该好好去。
编辑:MarcB在我面前发布了一分钟。干得好,对他充满信心。
答案 1 :(得分:0)
也许类似于!span来排除不需要的内容
试试.description [!span]