使用nokogiri在两个标签之间获取文本

时间:2012-07-14 10:10:04

标签: ruby nokogiri

我的HTML结构是

<div class="line">
    <h2>Header</h2>
    <h3>Mailing Address</h3>
    2349 Glorem ipsun lorem ipsum  CA 95833<br>
    <br>    

    Phone: 111-111-2111&nbsp;&nbsp;&nbsp;&nbsp;Fax: 111-511-1111<br>
    <a onfocus="blur()" target="_blank&quot;" href="">some text</a><br>
    <a onfocus="blur()" target="_blank" href="">some address</a><br>
    <div><p></p></div>      

    <h3>Contact(s)</h3>
</div>

HTML页面包含多个<div class=line></div>元素。对于每个div,我需要在包含其他数据的数组中提取电话和传真。我尝试使用

doc.css("div#ctl00_cphContent_divBrowseByMember").each do |div|
  div.css("div.line").each do |line|
    line.xpath('//text()[preceding-sibling::br and following-sibling::a]').text.strip
  end
end

它不返回任何内容并返回超时错误。 如果我试着  line.xpath('//text()[preceding-sibling::br and following-sibling::a]')[0].text.strip 将为所有其他div返回相同的电话和传真。请建议任何其他有助于我的解决方案。

1 个答案:

答案 0 :(得分:3)

简单方法:

phone, fax = line.text.scan /\d{3}-\d{3}-\d{4}/