Jsoup论坛刮痧

时间:2012-07-15 07:32:36

标签: html web-scraping jsoup

我正在使用Jsoup搜索在线论坛。想知道如果没有其他评论者的引用,我该如何去抓主帖。

我设法刮掉了什么: carey写道:是的,CC通常会得到折扣,尤其是汽油和makan ...在汽油亭使用的黑色DBS借记卡可以获得折扣吗?我总是支付现金,因为没有cc。

我想要的是什么:在汽油售票亭使用黑色DBS借记卡可以获得折扣吗?我总是支付现金,因为没有cc。

这是html:

<div id="post_message_63989045">
  <div class="quote"> 
    <span class="byline"> <a href="/eat-drink-man-woman-16/life-without-credit-cards-3601620-post63982949.html#post63982949" rel="nofollow"><img class="inlineimg" src="http://www.hardwarezone.com.sg/img/forums/hwz/buttons/viewpost.gif" border="0" alt="View Post" /></a> <strong>carey</strong> wrote: </span> 
     <blockquote cite="showthread.php?p=63982949#post63982949">
        Yup, CC usually got discounts, especially for petrol and makan...
        <br /> 
        <br /> So those without a CC are being penalized 
        <img src="http://www.hardwarezone.com.sg/img/forums/hwz/smilies/eek.gif" border="0" alt="" title="EEK!" class="inlineimg" /> 
     </blockquote> 
  </div>The black DBS debit card when used at petrol kiosk can get discount ?
  <br /> 
  <br /> I always pay cash because no cc . 
  <img src="http://www.hardwarezone.com.sg/img/forums/hwz/smilies/frown.gif" border="0" alt="" title="Frown" class="inlineimg" />
</div> 

3 个答案:

答案 0 :(得分:1)

如果用于抓取的任何内容解析HTML标记,您只需过滤掉具有“引用”类的<div>

答案 1 :(得分:0)

如果您可以使用XPath,则只需查询直接子项的所有文本节点:

//div[@id="post_message_63989045"]/text()

引号将被忽略,因为它的文本是quote-div的子代。 (可能与某人发布的任何代码标签一样)

答案 2 :(得分:0)

comments.ownText()

获取element拥有的文本。没有将文字与所有孩子合并