Question

我想提取每个“日期”部分的，是刮除<p>内部日期部分的最佳方法是什么。

<div class="kefufloat" id="targetObj">
            <img src=" " width="44"></div>

    <div class="reblock">
        <p><span>运单编号：</span>w44036</p>
        <p><span>下单时间：</span>2020-04-21 14:17:56</p>
        <p><span>到齐时间：</span>2020-04-10 11:33</p>           
            <p><span>已称重时间：</span>2020-04-21</p>        
    </div>
    <style>

Answer 1

我希望这段代码能对您有所帮助。

from bs4 import BeautifulSoup

html = """<div class="reblock">
  <p><span>运单编号：</span>w44036</p>
  <p><span>下单时间：</span>2020-04-21 14:17:56</p>
  <p><span>到齐时间：</span>2020-04-10 11:33</p>           
  <p><span>已称重时间：</span>2020-04-21</p>        
</div>
<style>"""

soup = BeautifulSoup(html, 'html.parser')

for row in soup.find_all('p'):
    print(row.get_text())

输出看起来像这样：

运单编号：w44036
下单时间：2020-04-21 14:17:56
到齐时间：2020-04-10 11:33
已称重时间：2020-04-21

要进行进一步处理，可以使用split()方法仅获取字符串的Date部分。那么您可以使用datetime库轻松地操作日期。特别是strftime() and strptime(）功能会很有帮助。

Python抓取|美丽汤

1 个答案: